type
status
date
slug
tags
summary
category
password
icon
运行程序注意事项
为了方便服务器的维护和管理,请大家在运行程序时通过python包
setproctitle
设置进程名,规则为项目名@姓名
。具体方法为,在需要运行的python主程序前方加入以下代码另,运行程序时需要通过
htop\top
确定cpu与内存占用,通过nvidia-smi
确定GPU占用,负载较高时请不要提交程序运行。 连接服务器
一般通过ssh连接并操作远程服务器。
我们的服务器全部在北大校园网内,如果你不在北大,请使用北大VPN
在windows上使用Powershell, 在linux/Mac上打开终端,输入如下指令
输入密码,就连接到了远程的服务器上。X229服务器的ip地址是162.105.19.48。用户名密码由张老师提供。
还有一些基于ssh但是可以提供更加高端的功能的工具:比如vscode的remoteSSH插件,安装后就可以直接修改服务器上的文件。
用sftp可以传输文件
put上传文件,get下载文件。ls可以看远程端当前文件夹内容,pwd可以看当前文件夹位置。
vscode server 反复要求密码
维修指南
3090服务器重启不能使用
如果发现机箱背面的clear cmos键发黄光,断电后长按clear cmos键。
Boot Issue
机房管理:胡芳芳老师。
- cannot process volume group …
Use the ubuntu advanced option (shift when booting).

choose a recovery mode kernel.

Use fsck to fix the file system.

- How to connect cables.

- How to awake server after connection keyboard and monitor
Ctrl
+Alt
+F3
read ip address: ip addr
Nvidia Driver
cuda: three part: driver(like 510.48), toolkit1(11.6), toolkit2(11.6)
see https://docs.nvidia.com/deploy/cuda-compatibility/index.html#default-to-minor-version

nvidia-smi shows the highest version the driver can support.
when using conda, cuda toolkit will be installed together.
Update driver:
First remove previous version
有两种方法
1. 使用 Ubuntu 软件仓库中的稳定版本安装
- 在终端输入:
ubuntu-drivers devices
。
- 如果同意安装推荐版本,那我们只需要终端输入:
sudo ubuntu-drivers autoinstall
就可以自动安装了。
- 当然我们也可以使用 apt 命令安装自己想要安装的版本,比如我想安装
340
这个版本号的版本,终端输入:sudo apt install nvidia-340
就自动安装了。
2. 从 NVIDIA 官网下载最新版驱动手动安装
- 打开终端,输入:
lshw -numeric -C display
,确认自己电脑显卡的型号,如下图:
然后到NVIDIA官网下载相应型号的驱动,选择runfile下载。
接着需要先安装一些 NVIDIA 显卡依赖的软件,在终端依次执行如下命令:
sudo dpkg --add-architecture i386
sudo apt update
sudo apt install build-essential libc6:i386
Ubuntu 系统默认安装好是使用的一个开源的驱动:
nouveau
,我们要安装官方的驱动需要先禁用这个开源驱动,方法如下,依次执行:sudo bash -c "echo blacklist nouveau > /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
sudo bash -c "echo options nouveau modeset=0 >> /etc/modprobe.d/blacklist-nvidia-nouveau.conf"
执行完上面两条指令后,我们使用如下命令看看是否成功禁用了开源驱动:
cat /etc/modprobe.d/blacklist-nvidia-nouveau.conf
。如果和下面一样,表示成功了。这时候我们需要先重启。
重启成功后执行runfile文件
安装过程中都点同意即可,如果你遇到下面的提示,安装下面我的输入输入后回车继续安装:
remember to open persistence mode.sudo nvidia-smi -pm 1
lspci | grep NVIDIA查看有几张显卡
CUDA initialization: CUDA unknown error
Seems a known bug in Nvidia Driver for linux
Check CUDA_VISIBLE_DEVICES
Check Pytorch cuda
if False: Reboot or
Recovery mode
Shift when booting→grub memu → Ubuntu advance option→recovery mode→root
get into root shell.
mount -o remount,rw /
- 作者:GraphPKU
- 链接:graphpku.cn/article/ae9cf095-2a8c-4057-a042-a7737dbce011
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。