type
status
date
slug
tags
summary
category
password
icon
关于slurm的高级用法可以看这个教程。
0. 登陆
注意:直接登陆上去之后,不要运行任何任务,只用这个作为头节点来提交任务。
1. Slurm
提交任务需要使用slurm,用以下命令来激活slurm(已经默认激活了):
Slurm命令 | 功能 |
sinfo | 查看集群分区状态 |
squeue | 查看作业队列 |
srun, salloc | 交互式运行作业 |
sbatch | 提交作业 |
scancel | 取消作业 |
scontrol | 查看和修改作业参数 |
sacct | 查看已完成作业 |
2. CUDA
系统目前安装了cuda11.2 和 cuda11.7,我默认激活了cuda 11.7,如果想要更改11.2,可以使用以下命令:
3. conda
已经为大家安装好了miniconda,可以使用以下命令激活conda(已经默认激活了):
base环境下安装了最新的
pytorch1.13.1-cuda11.7
,大家可以复制这个环境,或者安装自己所需要的环境。关于conda的使用可以参考教程: 4. 提交任务样例
4.1 后台模式 sbatch
在你要运行的程序里面创建一个run.sh文件,复制以下命令(可能需要把中文说明的注释删除)。
使用
sbatch run.sh
提交任务。使用
squeue
查看所有提交过的任务。你可以使用以下指令申请A800资源
你最高可以申请到16卡,两个计算结点,每个8卡。
4.2 交互模式 srun
如果需要动态的调试程序,可以把
sbatch
脚本命令改成srun
命令,其余参数设置一样。srun -J ogb -p IAI_SLURM_3090 --nodelist=node003 --qos=8gpu --time=24:00:00 -o logs/%j.out -e logs/%j.err -N 1 --gres=gpu:1 python main.py
- 作者:GraphPKU
- 链接:graphpku.cn/article/de706506-3fb9-42fb-b40d-b58e1e52615b
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。