type
status
date
slug
tags
summary
category
password
icon

运行程序注意事项

为了方便服务器的维护和管理,请大家在运行程序时通过python包setproctitle设置进程名,规则为项目名@姓名。具体方法为,在需要运行的python主程序前方加入以下代码
另,运行程序时需要通过htop\top确定cpu与内存占用,通过nvidia-smi确定GPU占用,负载较高时请不要提交程序运行。

连接服务器

一般通过ssh连接并操作远程服务器。
我们的服务器全部在北大校园网内,如果你不在北大,请使用北大VPN
在windows上使用Powershell, 在linux/Mac上打开终端,输入如下指令
输入密码,就连接到了远程的服务器上。X229服务器的ip地址是162.105.19.48。用户名密码由张老师提供。
还有一些基于ssh但是可以提供更加高端的功能的工具:比如vscode的remoteSSH插件,安装后就可以直接修改服务器上的文件。
用sftp可以传输文件
put上传文件,get下载文件。ls可以看远程端当前文件夹内容,pwd可以看当前文件夹位置。
 

vscode server 反复要求密码

维修指南

3090服务器重启不能使用

如果发现机箱背面的clear cmos键发黄光,断电后长按clear cmos键。

Boot Issue

机房管理:胡芳芳老师。
  • cannot process volume group …
    • Use the ubuntu advanced option (shift when booting).
      notion image
      choose a recovery mode kernel.
      notion image
      Use fsck to fix the file system.
      notion image
  • How to connect cables.
    • notion image
  • How to awake server after connection keyboard and monitor
    • Ctrl+Alt+F3
read ip address: ip addr

Nvidia Driver

cuda: three part: driver(like 510.48), toolkit1(11.6), toolkit2(11.6)
see https://docs.nvidia.com/deploy/cuda-compatibility/index.html#default-to-minor-version
notion image
nvidia-smi shows the highest version the driver can support.
when using conda, cuda toolkit will be installed together.
Update driver:
First remove previous version
有两种方法

1. 使用 Ubuntu 软件仓库中的稳定版本安装

  • 在终端输入:ubuntu-drivers devices
  • 如果同意安装推荐版本,那我们只需要终端输入:sudo ubuntu-drivers autoinstall 就可以自动安装了。
  • 当然我们也可以使用 apt 命令安装自己想要安装的版本,比如我想安装 340 这个版本号的版本,终端输入:sudo apt install nvidia-340 就自动安装了。

2. 从 NVIDIA 官网下载最新版驱动手动安装

  • 打开终端,输入:lshw -numeric -C display,确认自己电脑显卡的型号,如下图:
然后到NVIDIA官网下载相应型号的驱动,选择runfile下载。
接着需要先安装一些 NVIDIA 显卡依赖的软件,在终端依次执行如下命令:
  • sudo dpkg --add-architecture i386
  • sudo apt update
  • sudo apt install build-essential libc6:i386
Ubuntu 系统默认安装好是使用的一个开源的驱动:nouveau,我们要安装官方的驱动需要先禁用这个开源驱动,方法如下,依次执行:
  • sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
  • sudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
执行完上面两条指令后,我们使用如下命令看看是否成功禁用了开源驱动:cat /etc/modprobe.d/blacklist-nvidia-nouveau.conf。如果和下面一样,表示成功了。
这时候我们需要先重启。
重启成功后执行runfile文件
安装过程中都点同意即可,如果你遇到下面的提示,安装下面我的输入输入后回车继续安装:
remember to open persistence mode.sudo nvidia-smi -pm 1
lspci | grep NVIDIA查看有几张显卡
 

CUDA initialization: CUDA unknown error

Seems a known bug in Nvidia Driver for linux
Check CUDA_VISIBLE_DEVICES
Check Pytorch cuda
if False: Reboot or
 

Recovery mode

Shift when booting→grub memu → Ubuntu advance option→recovery mode→root
get into root shell.
mount -o remount,rw /
 
重装cudaTmux使用教程
GraphPKU
GraphPKU
北京大学张牧涵老师团队
公告
type
status
date
slug
tags
summary
category
password
icon
组会排期:
分享者1
分享者2
日期
孟繁续
8.22
陈立斌
吴青阳
毛彦升
杨昊桐
刘晔玮
江凡
王雨轩
汤平之
何梓源
华羽宸
张雪峰
施沛廷
孙一可
李自安
胡逸
亢世嘉
王奕丁
王彦博
彭鑫港
王希元
徐宇飞
地点:资源西楼2202
腾讯会议:694-682-1555
线下午餐时间 12:00
会议开始时间 12:30