type
status
date
slug
tags
summary
category
password
icon

nvitop: 史上最强GPU性能实时监测工具

引言

相信大家在用NVIDIA-GPU训练网络模型的时候,都会习惯性的在终端nvidia-smi一下吧?最直接的目的是为了查看哪些卡正在使用,哪些卡处在空闲,然后挑选空闲的卡号进行网络训练。
「了解哪块卡处在空闲只是普通算法工程师的普通需求」
咱们作为一名资深的算法工程师,毕竟身兼多职:上要开发AI算法,下要管理服务器,左要带新人,右要PPT汇报上级。
对于管理服务器:刚买的新服务器你得装系统吧?得装DriverCudaCudnn吧?时不时还得盯一下服务器各个卡的运行状况,毕竟刚入职的小年青有时候一顿操作,一个人占用全服务器95%以上的内存把服务器直接卡死也不是没有可能。
nvitop是一个非常全面的NVIDIA-GPU设备运行状况的实时监控工具,它将GPU利用率,显存占比,卡号使用者,CPU利用率,进程使用时间,命令行等等集于一身,并以差异化的颜色进行个性化展示,安装过程也非常简单,强烈大家推荐使用,让自己在管理服务器的时候事半功倍!
以下图1展示了nvitopnvidia-smi命令的界面对比结果:
notion image
图1. nvitop(左) VS nvidia-smi(右)

nvitop效果展示

「NviTop」
nvitop是一款交互式NVIDIA-GPU设备性能&资源&进程的实时监测工具。
相比于nvidia-smi命令,nvitop在实时监控GPU设备资源&性能上具备全方位优势:
  • 以更美观的颜色,和更直观的进度条实时展示某块GPU卡所处进程的GPU&CPU内存以及利用率占比
  • 作为资源监控器,它包括如下功能:树状视图、环境变量查看、进程过滤、进程指标检测等
  • 可追踪某个单项进程在GPU&CPU上内存和利用率占比的历史纪录,并利用Bar直观展示
  • 可直观展示某块GPU的使用者、使用时间、使用命令行、GPU和CPU占用率记录
  • 可使用工具提供的API搭建自定义监控工具
完整API说明文档请移步:https://nvitop.readthedocs.io
复制文件给其他用户huggingface
GraphPKU
GraphPKU
北京大学张牧涵老师团队
公告
type
status
date
slug
tags
summary
category
password
icon
组会排期:
分享者1
分享者2
日期
毛彦升
杨昊桐
2.21
刘晔玮
2.28
王雨轩
江凡
3.7
汤平之
3.14
何梓源
3.21
华羽宸
孙一可
4.11
张雪峰
4.18
施沛廷
马唯硕
李自安
胡逸
亢世嘉
王弈丁
毛彦升
张孝辉
杨奇滨
王彦博
彭鑫港
王希元
徐宇飞
孟繁续
陈立斌
吴青阳
地点:资源西楼2202
腾讯会议:694-682-1555
线下午餐时间 12:00
会议开始时间 12:30