type
status
date
slug
tags
summary
category
password
icon
关于slurm的高级用法可以看这个教程。
 

0. 登陆

注意:直接登陆上去之后,不要运行任何任务,只用这个作为头节点来提交任务。
 

1. Slurm

提交任务需要使用slurm,用以下命令来激活slurm(已经默认激活了):
Slurm命令
功能
sinfo
查看集群分区状态
squeue
查看作业队列
srun, salloc
交互式运行作业
sbatch
提交作业
scancel
取消作业
scontrol
查看和修改作业参数
sacct
查看已完成作业

2. CUDA

系统目前安装了cuda11.2 和 cuda11.7,我默认激活了cuda 11.7,如果想要更改11.2,可以使用以下命令:

3. conda

已经为大家安装好了miniconda,可以使用以下命令激活conda(已经默认激活了):
base环境下安装了最新的pytorch1.13.1-cuda11.7,大家可以复制这个环境,或者安装自己所需要的环境。关于conda的使用可以参考教程:

4. 提交任务样例

4.1 后台模式 sbatch

在你要运行的程序里面创建一个run.sh文件,复制以下命令(可能需要把中文说明的注释删除)。
使用sbatch run.sh 提交任务。
使用squeue 查看所有提交过的任务。
你可以使用以下指令申请A800资源
你最高可以申请到16卡,两个计算结点,每个8卡。

4.2 交互模式 srun

如果需要动态的调试程序,可以把sbatch脚本命令改成srun命令,其余参数设置一样。
srun -J ogb -p IAI_SLURM_3090 --nodelist=node003 --qos=8gpu --time=24:00:00 -o logs/%j.out -e logs/%j.err -N 1 --gres=gpu:1 python main.py
 
博雅集群使用机器学习课程视频
GraphPKU
GraphPKU
北京大学张牧涵老师团队
公告
type
status
date
slug
tags
summary
category
password
icon
组会排期:
分享者1
分享者2
日期
孟繁续
8.22
陈立斌
吴青阳
毛彦升
杨昊桐
刘晔玮
江凡
王雨轩
汤平之
何梓源
华羽宸
张雪峰
施沛廷
孙一可
李自安
胡逸
亢世嘉
王奕丁
王彦博
彭鑫港
王希元
徐宇飞
地点:资源西楼2202
腾讯会议:694-682-1555
线下午餐时间 12:00
会议开始时间 12:30