type
status
date
slug
tags
summary
category
password
icon
关于slurm的高级用法可以看这个教程。
 

0. 登陆

注意:直接登陆上去之后,不要运行任何任务,只用这个作为头节点来提交任务。
 

1. Slurm

提交任务需要使用slurm,用以下命令来激活slurm(已经默认激活了):
Slurm命令
功能
sinfo
查看集群分区状态
squeue
查看作业队列
srun, salloc
交互式运行作业
sbatch
提交作业
scancel
取消作业
scontrol
查看和修改作业参数
sacct
查看已完成作业

2. CUDA

系统目前安装了cuda11.2 和 cuda11.7,我默认激活了cuda 11.7,如果想要更改11.2,可以使用以下命令:

3. conda

已经为大家安装好了miniconda,可以使用以下命令激活conda(已经默认激活了):
base环境下安装了最新的pytorch1.13.1-cuda11.7,大家可以复制这个环境,或者安装自己所需要的环境。关于conda的使用可以参考教程:

4. 提交任务样例

4.1 后台模式 sbatch

在你要运行的程序里面创建一个run.sh文件,复制以下命令(可能需要把中文说明的注释删除)。
使用sbatch run.sh 提交任务。
使用squeue 查看所有提交过的任务。
你可以使用以下指令申请A800资源
你最高可以申请到16卡,两个计算结点,每个8卡。

4.2 交互模式 srun

如果需要动态的调试程序,可以把sbatch脚本命令改成srun命令,其余参数设置一样。
srun -J ogb -p IAI_SLURM_3090 --nodelist=node003 --qos=8gpu --time=24:00:00 -o logs/%j.out -e logs/%j.err -N 1 --gres=gpu:1 python main.py
 
博雅集群使用机器学习课程视频
GraphPKU
GraphPKU
北京大学张牧涵老师团队
公告
type
status
date
slug
tags
summary
category
password
icon
组会排期:
分享者1
分享者2
日期
毛彦升
杨昊桐
2.21
刘晔玮
2.28
王雨轩
江凡
3.7
汤平之
3.14
何梓源
3.21
华羽宸
孙一可
4.11
张雪峰
4.18
施沛廷
马唯硕
李自安
胡逸
亢世嘉
王弈丁
毛彦升
张孝辉
杨奇滨
王彦博
彭鑫港
王希元
徐宇飞
孟繁续
陈立斌
吴青阳
地点:资源西楼2202
腾讯会议:694-682-1555
线下午餐时间 12:00
会议开始时间 12:30