当前位置: 首页 > news >正文

slurm启动验证命令

Slurm 核心组件与启动原理

Slurm主要由三个守护进程(daemon)组成:

  1. slurmctld:中央管理守护进程,运行在管理节点上。负责监控工作、调度作业、管理节点。

  2. slurmd:计算节点守护进程,运行在每个计算节点上。负责接收来自slurmctld的任务,执行作业,并报告状态。

  3. slurmdbd(可选):数据库守护进程,用于将作业记账信息写入数据库(如MySQL)。通常也运行在管理节点。

启动顺序遵循自下而上的原则:先启动所有计算节点上的slurmd,最后启动管理节点上的slurmctld


一、启动Slurm集群

第1步:启动计算节点(在所有计算节点上执行)

登录到每个计算节点,启动slurmd服务。建议使用系统服务管理命令(如systemd)。

bash
# 使用 systemctl 启动并启用开机自启(推荐方式)
sudo systemctl start slurmd
sudo systemctl enable slurmd# 检查状态,确认状态为 active (running)
sudo systemctl status slurmd
  • 关键点:必须确保所有计算节点的slurmd服务都成功启动。

第2步:启动管理节点(在管理节点上执行)

在所有计算节点的slurmd都运行起来后,再启动主管理服务。

bash
# 启动并启用 slurmctld
sudo systemctl start slurmctld
sudo systemctl enable slurmctld# 检查状态
sudo systemctl status slurmctld# (如果配置了数据库)启动并启用 slurmdbd
sudo systemctl start slurmdbd
sudo systemctl enable slurmdbd
sudo systemctl status slurmdbd

第3步:验证集群状态

在管理节点上使用Slurm命令验证集群是否就绪。

bash
# 查看所有节点状态,应均为 idle 或 alloc(如果已有作业)
sinfo# 显示所有节点的详细状态
scontrol show nodes# 查看分区状态
scontrol show partitions

如果sinfo命令能正常返回且节点状态正确,说明集群启动成功。


二、停止Slurm集群

停止顺序与启动相反,遵循自上而下的原则:先停止管理节点,再停止计算节点。

第1步:停止管理节点(在管理节点上执行)

bash
# 停止管理服务
sudo systemctl stop slurmctld
sudo systemctl stop slurmdbd  # 如果正在运行

第2步:停止计算节点(在所有计算节点上执行)

bash
# 在每个计算节点上执行
sudo systemctl stop slurmd

三、重启Slurm集群(常见维护操作)

通常是在修改了配置文件(slurm.conf)后需要进行的操作。

方法A:优雅重启(推荐,不影响运行中的作业)

  1. 重新加载配置(在管理节点上):

    bash
    # 让 slurmctld 重新读取配置文件
    scontrol reconfig# 让每个计算节点的 slurmd 重新读取配置
    scontrol reconfigure

    注意:此方法不会中断正在运行的作业。

方法B:完全重启(配置重大变更时使用)

按照停止集群的顺序完全停止所有服务,然后再按照启动集群的顺序重新启动。


四、故障排查与日志查看

如果启动失败,查看日志是第一步。

  1. 管理节点日志(slurmctld):

    bash
    # 默认日志路径
    sudo tail -f /var/log/slurm/slurmctld.log
  2. 计算节点日志(slurmd):

    bash
    # 登录到出问题的计算节点查看
    sudo tail -f /var/log/slurm/slurmd.log
  3. 数据库日志(slurmdbd,如果配置了):

    bash
    sudo tail -f /var/log/slurm/slurmdbd.log
  4. 检查配置文件语法(在管理节点上):

    bash
    # 验证主配置文件是否正确
    sudo slurmctld -T -v
    sudo slurmd -T -v
    • -T 选项用于测试模式,只检查配置而不启动服务。

    • -v 选项显示更详细的信息。

简易启动检查清单

  1. 前置条件:确保所有节点的slurm.conf配置文件一致;确保管理节点和计算节点之间主机名解析(/etc/hosts或DNS)和SSH互信已正确配置。

  2. 启动计算节点:在所有计算节点上执行 sudo systemctl start slurmd

  3. 启动管理节点:在管理节点上执行 sudo systemctl start slurmctld(和slurmdbd)。

  4. 验证状态:在管理节点上运行 sinfo,确认所有节点状态为 idle

  5. 提交测试作业:运行 srun -N 1 hostname 进行冒烟测试。

http://www.rkmt.cn/news/7960.html

相关文章:

  • 实用指南:LeetCode //C - 836. Rectangle Overlap
  • 深入解析:[Android] 安卓手机翻页时钟Flip Clock - World Clock v1.5.0.0
  • 深入解析:多模态大模型3:TAViS
  • 基于STM32F103C8T6与DS18B20的温度测量系统
  • Oxygen Forensic Detective 18.0 发布,新增功能简介
  • Windows如何美化cmd窗口
  • MX Round 7 解题报告
  • 实用指南:售价3499美元,英伟达Jetson Thor实现机器人与物理世界的实时智能交互
  • 逻辑回归 vs 支持向量机 vs 随机森林:哪个更适合小数据集? - 指南
  • 券多多系统-开发记录
  • US$189 Yanhua Mini ACDP Module3 Read amp; Write BMW DME ISN Code by OBD
  • React 状态丢失:组件 key 用错引发的渲染异常 - 指南
  • 快速实现 Excel 表格转 SVG:Java 教程 - E
  • PolarFire SoC QSPI 代码编写 测试
  • C++中类的内存存储
  • 做题
  • SchemaStore
  • Visual Studio 2026 Insiders 重磅发布:AI 深度集成、性能飞跃、全新设计
  • 《刚刚问世》系列初窥篇-Java+Playwright自动化测试-29- 操作单选和多选按钮 - 下篇(详细教程) - 北京
  • 自定义注解实现服务分处理-策略模式
  • 远程控制应用的中的全球节点功能如何开启?插件类型、并发数量怎么选?
  • openEuler 24.03 (LTS-SP2)安装mysql 8.0.41
  • 7.数据库归档异常检查与处理
  • AI 赋能 APP 界面设计公司:从美学到交互的智能升级
  • Microsoft AI Genius 限时挑战赛:实战开启,等你应战!
  • 3.sysaux tablesace 清理
  • 在AI技术快速实现功能的时代,挖掘新需求成为核心竞争力——某知名Android面试题库需求洞察
  • php本地搭建知识库实现rag遇到的各种问题解决方式
  • 【字节跳动】LLM大模型算法面试题:大模型 LLM的架构介绍? - 教程
  • 解码C语言指针