type
status
date
slug
tags
summary
category
password
icon

运行程序注意事项

为了方便服务器的维护和管理,请大家在运行程序时通过python包setproctitle设置进程名,规则为项目名@姓名。具体方法为,在需要运行的python主程序前方加入以下代码
另,运行程序时需要通过htop\top确定cpu与内存占用,通过nvidia-smi确定GPU占用,负载较高时请不要提交程序运行。

连接服务器

一般通过ssh连接并操作远程服务器。
我们的服务器全部在北大校园网内,如果你不在北大,请使用北大VPN
在windows上使用Powershell, 在linux/Mac上打开终端,输入如下指令
输入密码,就连接到了远程的服务器上。X229服务器的ip地址是162.105.19.48。用户名密码由张老师提供。
还有一些基于ssh但是可以提供更加高端的功能的工具:比如vscode的remoteSSH插件,安装后就可以直接修改服务器上的文件。
用sftp可以传输文件
put上传文件,get下载文件。ls可以看远程端当前文件夹内容,pwd可以看当前文件夹位置。
 

vscode server 反复要求密码

维修指南

3090服务器重启不能使用

如果发现机箱背面的clear cmos键发黄光,断电后长按clear cmos键。

Boot Issue

机房管理:胡芳芳老师。
  • cannot process volume group …
    • Use the ubuntu advanced option (shift when booting).
      notion image
      choose a recovery mode kernel.
      notion image
      Use fsck to fix the file system.
      notion image
  • How to connect cables.
    • notion image
  • How to awake server after connection keyboard and monitor
    • Ctrl+Alt+F3
read ip address: ip addr

Nvidia Driver

cuda: three part: driver(like 510.48), toolkit1(11.6), toolkit2(11.6)
see https://docs.nvidia.com/deploy/cuda-compatibility/index.html#default-to-minor-version
notion image
nvidia-smi shows the highest version the driver can support.
when using conda, cuda toolkit will be installed together.
Update driver:
First remove previous version
有两种方法

1. 使用 Ubuntu 软件仓库中的稳定版本安装

  • 在终端输入:ubuntu-drivers devices
  • 如果同意安装推荐版本,那我们只需要终端输入:sudo ubuntu-drivers autoinstall 就可以自动安装了。
  • 当然我们也可以使用 apt 命令安装自己想要安装的版本,比如我想安装 340 这个版本号的版本,终端输入:sudo apt install nvidia-340 就自动安装了。

2. 从 NVIDIA 官网下载最新版驱动手动安装

  • 打开终端,输入:lshw -numeric -C display,确认自己电脑显卡的型号,如下图:
然后到NVIDIA官网下载相应型号的驱动,选择runfile下载。
接着需要先安装一些 NVIDIA 显卡依赖的软件,在终端依次执行如下命令:
  • sudo dpkg --add-architecture i386
  • sudo apt update
  • sudo apt install build-essential libc6:i386
Ubuntu 系统默认安装好是使用的一个开源的驱动:nouveau,我们要安装官方的驱动需要先禁用这个开源驱动,方法如下,依次执行:
  • sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
  • sudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
执行完上面两条指令后,我们使用如下命令看看是否成功禁用了开源驱动:cat /etc/modprobe.d/blacklist-nvidia-nouveau.conf。如果和下面一样,表示成功了。
这时候我们需要先重启。
重启成功后执行runfile文件
安装过程中都点同意即可,如果你遇到下面的提示,安装下面我的输入输入后回车继续安装:
remember to open persistence mode.sudo nvidia-smi -pm 1
lspci | grep NVIDIA查看有几张显卡
 

CUDA initialization: CUDA unknown error

Seems a known bug in Nvidia Driver for linux
Check CUDA_VISIBLE_DEVICES
Check Pytorch cuda
if False: Reboot or
 

Recovery mode

Shift when booting→grub memu → Ubuntu advance option→recovery mode→root
get into root shell.
mount -o remount,rw /
 
重装cudaTmux使用教程
GraphPKU
GraphPKU
北京大学张牧涵老师团队
公告
type
status
date
slug
tags
summary
category
password
icon
组会排期:
分享者1
分享者2
日期
毛彦升
杨昊桐
2.21
刘晔玮
2.28
王雨轩
江凡
3.7
汤平之
3.14
何梓源
3.21
华羽宸
孙一可
4.11
张雪峰
4.18
施沛廷
马唯硕
李自安
胡逸
亢世嘉
王弈丁
毛彦升
张孝辉
杨奇滨
王彦博
彭鑫港
王希元
徐宇飞
孟繁续
陈立斌
吴青阳
地点:资源西楼2202
腾讯会议:694-682-1555
线下午餐时间 12:00
会议开始时间 12:30