← Volver a artículos
Noticias· 3 min de lectura

Slurm en OpenNebula: planificación batch HPC para entrenar modelos de IA

OpenNebula ha publicado en su blog una guía sobre cómo ejecutar Slurm, el planificador de cargas HPC más extendido en centros de cálculo, encima de su plataforma para entrenar modelos de inteligencia artificial sobre infraestructura GPU. La idea es dar a los investigadores y científicos de datos la interfaz de trabajo por lotes que ya conocen, sin pedirles que cambien sus flujos, mientras la gestión del hardware queda en manos de OpenNebula.

El planteamiento tiene dos partes. Por defecto, las appliances de Slurm se ejecutan dentro de máquinas virtuales gestionadas por OpenNebula. Eso mantiene el aislamiento y el ciclo de vida de la VM, con el acceso a las GPU resuelto mediante PCI passthrough, que da rendimiento muy cercano al del metal. Para quien necesite aún más, OpenNebula está ampliando la integración con NVIDIA Infra Controller (NiCo) para llevar Slurm a nodos bare-metal.

Qué incluye el lanzamiento

La novedad concreta son dos appliances en el Marketplace de OpenNebula: un controlador (Controller) y un worker. Ambos resuelven de forma automática dos cosas que suelen dar trabajo manual: la autenticación Munge entre nodos del clúster y la integración con OpenNebula a través de OneGate. Con eso, levantar un clúster de Slurm deja de ser un ejercicio de configuración a mano.

Para las redes de alto rendimiento, el artículo detalla el uso de NVIDIA Quantum InfiniBand expuesta a las VMs mediante SR-IOV o, de nuevo, PCI passthrough. El escalado elástico permite arrancar workers adicionales desde una plantilla cuando la demanda sube, de modo que un pool de nodos GPU crece según el volumen de trabajos pendientes.

Como demostración práctica, el post muestra un caso de fine-tuning de un modelo de lenguaje usando Unsloth sobre un modelo pequeño, suficiente para enseñar el recorrido completo: enviar el trabajo a la cola de Slurm, que el planificador lo asigne a un worker con GPU y recoger el resultado.

OneSlurm, todavía en vista previa

El texto adelanta también OneSlurm, un componente gestionado que aún está en preview. Su objetivo es simplificar el despliegue, la operación y la gestión del ciclo de vida de clústeres de Slurm sobre infraestructura administrada por OpenNebula. La documentación de referencia apunta a la versión 7.0 y el trabajo se enmarca en OpenNebula 7.2.

A quién le interesa

Esto encaja sobre todo para centros de investigación HPC, laboratorios grandes de IA y entornos tipo AI Factory que ya tienen GPU y quieren ofrecer a sus equipos la cola de trabajos de Slurm sin montar un clúster dedicado desde cero. Si vienes del mundo de la virtualización Linux, la base es la de siempre: KVM con QEMU y libvirt por debajo. Si quieres repasar cómo encajan esas capas, lo contamos en KVM, QEMU y libvirt en RHEL. Y si la GPU pasa por PCI passthrough, conviene tener clara la ficha de KVM como hipervisor.

Fuente

Artículo original de OpenNebula: Slurm on OpenNebula: HPC Batch Scheduling for AI Training (23 de junio de 2026). El motor de virtualización por debajo es KVM, que actúa como agregador de las VMs donde corren las appliances de Slurm.