OpenNebula ha publicat al seu blog una guia sobre com executar Slurm, el planificador de càrregues HPC més estès als centres de càlcul, a sobre de la seva plataforma per entrenar models d’intel·ligència artificial sobre infraestructura GPU. La idea és donar als investigadors i científics de dades la interfície de treball per lots que ja coneixen, sense demanar-los que canviïn els seus fluxos, mentre la gestió del maquinari queda en mans d’OpenNebula.
El plantejament té dues parts. Per defecte, les appliances de Slurm s’executen dins de màquines virtuals gestionades per OpenNebula. Això manté l’aïllament i el cicle de vida de la VM, amb l’accés a les GPU resolt mitjançant PCI passthrough, que dona un rendiment molt proper al del metall. Per a qui necessiti encara més, OpenNebula està ampliant la integració amb NVIDIA Infra Controller (NiCo) per dur Slurm a nodes bare-metal.
Què inclou el llançament
La novetat concreta són dues appliances al Marketplace d’OpenNebula: un controlador (Controller) i un worker. Totes dues resolen de manera automàtica dues coses que solen donar feina manual: l’autenticació Munge entre nodes del clúster i la integració amb OpenNebula a través d’OneGate. Amb això, aixecar un clúster de Slurm deixa de ser un exercici de configuració a mà.
Per a les xarxes d’alt rendiment, l’article detalla l’ús de NVIDIA Quantum InfiniBand exposada a les VMs mitjançant SR-IOV o, un cop més, PCI passthrough. L’escalat elàstic permet arrencar workers addicionals des d’una plantilla quan la demanda puja, de manera que un pool de nodes GPU creix segons el volum de treballs pendents.
Com a demostració pràctica, el post mostra un cas de fine-tuning d’un model de llenguatge amb Unsloth sobre un model petit, prou per ensenyar el recorregut complet: enviar el treball a la cua de Slurm, que el planificador l’assigni a un worker amb GPU i recollir el resultat.
OneSlurm, encara en vista prèvia
El text avança també OneSlurm, un component gestionat que encara està en preview. El seu objectiu és simplificar el desplegament, l’operació i la gestió del cicle de vida de clústers de Slurm sobre infraestructura administrada per OpenNebula. La documentació de referència apunta a la versió 7.0 i la feina s’emmarca en OpenNebula 7.2.
A qui interessa
Això encaixa sobretot per a centres de recerca HPC, laboratoris grans d’IA i entorns de tipus AI Factory que ja tenen GPU i volen oferir als seus equips la cua de treballs de Slurm sense muntar un clúster dedicat des de zero. Si véns del món de la virtualització Linux, la base és la de sempre: KVM amb QEMU i libvirt per sota. Si vols repassar com encaixen aquestes capes, ho expliquem a KVM, QEMU i libvirt a RHEL. I si la GPU passa per PCI passthrough, convé tenir clara la fitxa de KVM com a hipervisor.
Font
Article original d’OpenNebula: Slurm on OpenNebula: HPC Batch Scheduling for AI Training (23 de juny de 2026). El motor de virtualització per sota és KVM, que actua com a agregador de les VMs on corren les appliances de Slurm.