尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

slurm启动验证命令

slurm启动验证命令
📅 发布时间:2026/6/20 10:20:10

Slurm 核心组件与启动原理

Slurm主要由三个守护进程(daemon)组成:

  1. slurmctld:中央管理守护进程,运行在管理节点上。负责监控工作、调度作业、管理节点。

  2. slurmd:计算节点守护进程,运行在每个计算节点上。负责接收来自slurmctld的任务,执行作业,并报告状态。

  3. slurmdbd(可选):数据库守护进程,用于将作业记账信息写入数据库(如MySQL)。通常也运行在管理节点。

启动顺序遵循自下而上的原则:先启动所有计算节点上的slurmd,最后启动管理节点上的slurmctld。


一、启动Slurm集群

第1步:启动计算节点(在所有计算节点上执行)

登录到每个计算节点,启动slurmd服务。建议使用系统服务管理命令(如systemd)。

bash
# 使用 systemctl 启动并启用开机自启(推荐方式)
sudo systemctl start slurmd
sudo systemctl enable slurmd# 检查状态,确认状态为 active (running)
sudo systemctl status slurmd
  • 关键点:必须确保所有计算节点的slurmd服务都成功启动。

第2步:启动管理节点(在管理节点上执行)

在所有计算节点的slurmd都运行起来后,再启动主管理服务。

bash
# 启动并启用 slurmctld
sudo systemctl start slurmctld
sudo systemctl enable slurmctld# 检查状态
sudo systemctl status slurmctld# (如果配置了数据库)启动并启用 slurmdbd
sudo systemctl start slurmdbd
sudo systemctl enable slurmdbd
sudo systemctl status slurmdbd

第3步:验证集群状态

在管理节点上使用Slurm命令验证集群是否就绪。

bash
# 查看所有节点状态,应均为 idle 或 alloc(如果已有作业)
sinfo# 显示所有节点的详细状态
scontrol show nodes# 查看分区状态
scontrol show partitions

如果sinfo命令能正常返回且节点状态正确,说明集群启动成功。


二、停止Slurm集群

停止顺序与启动相反,遵循自上而下的原则:先停止管理节点,再停止计算节点。

第1步:停止管理节点(在管理节点上执行)

bash
# 停止管理服务
sudo systemctl stop slurmctld
sudo systemctl stop slurmdbd  # 如果正在运行

第2步:停止计算节点(在所有计算节点上执行)

bash
# 在每个计算节点上执行
sudo systemctl stop slurmd

三、重启Slurm集群(常见维护操作)

通常是在修改了配置文件(slurm.conf)后需要进行的操作。

方法A:优雅重启(推荐,不影响运行中的作业)

  1. 重新加载配置(在管理节点上):

    bash
    # 让 slurmctld 重新读取配置文件
    scontrol reconfig# 让每个计算节点的 slurmd 重新读取配置
    scontrol reconfigure

    注意:此方法不会中断正在运行的作业。

方法B:完全重启(配置重大变更时使用)

按照停止集群的顺序完全停止所有服务,然后再按照启动集群的顺序重新启动。


四、故障排查与日志查看

如果启动失败,查看日志是第一步。

  1. 管理节点日志(slurmctld):

    bash
    # 默认日志路径
    sudo tail -f /var/log/slurm/slurmctld.log
  2. 计算节点日志(slurmd):

    bash
    # 登录到出问题的计算节点查看
    sudo tail -f /var/log/slurm/slurmd.log
  3. 数据库日志(slurmdbd,如果配置了):

    bash
    sudo tail -f /var/log/slurm/slurmdbd.log
  4. 检查配置文件语法(在管理节点上):

    bash
    # 验证主配置文件是否正确
    sudo slurmctld -T -v
    sudo slurmd -T -v
    • -T 选项用于测试模式,只检查配置而不启动服务。

    • -v 选项显示更详细的信息。

简易启动检查清单

  1. 前置条件:确保所有节点的slurm.conf配置文件一致;确保管理节点和计算节点之间主机名解析(/etc/hosts或DNS)和SSH互信已正确配置。

  2. 启动计算节点:在所有计算节点上执行 sudo systemctl start slurmd。

  3. 启动管理节点:在管理节点上执行 sudo systemctl start slurmctld(和slurmdbd)。

  4. 验证状态:在管理节点上运行 sinfo,确认所有节点状态为 idle。

  5. 提交测试作业:运行 srun -N 1 hostname 进行冒烟测试。

相关新闻

  • 实用指南:LeetCode //C - 836. Rectangle Overlap
  • 深入解析:[Android] 安卓手机翻页时钟Flip Clock - World Clock v1.5.0.0
  • 深入解析:多模态大模型3:TAViS

最新新闻

  • 从Demo狂欢到生产落地,AI Agent系统化测评完整实践指南
  • 旧金饰变现不想亏?这5家桂林回收门店报价较实在 - 嵩山路大王
  • Java SpringBoot+Vue3+MyBatis . Web考编论坛网站系统源码|前后端分离+MySQL数据库
  • 2026 哈尔滨首饰回收门店盘点 | 梵克雅宝本地老店报价汇总 - 讯息早知道
  • NAS上部署AgentMemory:DeepSeek压缩+Tailscale远程访问实战
  • AI就绪数据:打造企业智能核心引擎

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号