Linux-SLURM：分配所有GPU后,无法再提交cpu作业

2023-07-24 12:26:10

我们刚刚开始使用Slurm来管理我们的GPU(目前只有2个).我们使用ubuntu 14.04和slurm-llnl.我已经配置了gres.conf和srun works.
问题是,如果我使用–gres = gpu：1运行两个作业,则两个GPU已成功分配,并且这些作业开始运行；现在我希望不使用–gres = gpu：1即可运行更多的作业(除了2个GPU作业之外)(即,不仅仅使用CPU和ram的作业),但是不可能.

该错误消息表明,它无法分配所需的资源(即使有24个CPU内核).

这是我的gres.conf：

Name=gpu Type=titanx File=/dev/nvidia0
Name=gpu Type=titanx File=/dev/nvidia1
NodeName=ubuntu Name=gpu Type=titanx File=/dev/nvidia[0-1]

感谢您的帮助.谢谢.

解决方法:

确保配置中的SelectType为CR_CPU或CR_Core,并且分区的共享选项未设置为独占.否则,Slurm会将完整的节点分配给作业.

码农公寓

相关文章