监控项
大约 7 分钟
监控项
宿主机的监控项列表
分类 | key | 描述 | 类型 | 单位 |
host.gpuCount | GPU数量 | unsigned int | ||
host.gpuUsed | 已使用的GPU个数 | unsigned int | ||
GPU | host.gpu.0.name | 第一块GPU的名称,中间的数字是编号,从0开始,下同 | string | |
host.gpu.0.busId | GPU的总线ID | string | ||
host.gpu.0.memTotal | GPU显存大小 | unsigned long long | B | |
host.gpu.0.memFree | GPU显存空闲大小 | unsigned long long | B | |
host.gpu.0.memUsed | GPU显存已占用大小 | unsigned long long | B | |
host.gpu.0.gpuUtilization | GPU利用率:在过去的采样周期中,一个或多个内核在 GPU 上执行的时间百分比 | unsigned int | ||
host.gpu.0.memUtilization | 显存利用率:在过去的采样周期中读取或写入全局(设备)内存的时间百分比 | unsigned int | ||
host.gpu.0.powerUsage | GPU使用功率 | unsigned int | milliwatt 毫瓦(特) | |
host.gpu.0.powerCap | GPU最大功率 | unsigned int | milliwatt 毫瓦(特) | |
host.gpu.0.temperature | GPU当前温度 | unsigned int | degrees C | |
虚拟机 | host.vmCount | 虚拟机数量 | unsigned int | |
host.vmRunning | 正在运行的虚拟机个数 | unsigned int | ||
CPU | host.cpuUsage | CPU使用率 | float | % |
内存 | host.memTotal | 总内存 | unsigned long long | KB |
host.memFree | 空闲内存 | unsigned long long | KB | |
host.memUsage | 内存使用率 | float | % | |
流量 | host.rxFlow | 接收总流量 | long long | B |
host.txFlow | 发送总流量 | long long | B | |
数据盘 | host.diskTotal | 硬盘容量 | unsigned long long | KB |
host.diskFree | 硬盘空闲容量 | unsigned long long | KB | |
host.diskUsage | 硬盘使用率 | float | % | |
host.diskMountStatus | 挂载状态,"lost"或者"normal" | string | ||
平均负载 | host.loadAverage.1 | 过去的1分钟内的平均负载 | float | |
host.loadAverage.5 | 过去的5分钟内的平均负载 | float | ||
host.loadAverage.15 | 过去的15分钟内的平均负载 | float | ||
host.dbcVersion | DBC版本号 | string |
虚拟机的监控项列表
分类 | key | 描述 | 类型 | 单位 | |
虚拟机监控 | 基本信息 | dom.state | 虚拟机状态,例如running | string | |
dom.maxMem | 虚拟机允许的最大内存 | unsigned int | KB | ||
dom.memory | 虚拟机已使用的内存大小 | unsigned int | KB | ||
dom.nrVirtCpu | 虚拟机的vCPU个数 | unsigned int | |||
dom.cpuTime | 虚拟机的CPU时间 | unsigned long long | |||
dom.cpuUsage | 虚拟机的CPU平均使用率 | float | % | ||
内存信息 | memory.total | 内存total | unsigned long long | KB | |
memory.unused | 内存实时unused | unsigned long long | KB | ||
memory.available | 内存实时avaliable | unsigned long long | KB | ||
memory.usage | 内存实时使用率 | float | % | ||
磁盘信息 | disk.0.name | 第一块磁盘的名称,中间的数字是编号,从0开始,下同 | string | ||
disk.0.capacity | 磁盘逻辑大小 | unsigned long long | KB | ||
disk.0.allocation | 磁盘存储大小,类似'du'命令 | unsigned long long | KB | ||
disk.0.physical | 磁盘物理大小,类似'ls'命令 | unsigned long long | KB | ||
disk.0.rd_req | number of read requests | long long | |||
disk.0.rd_bytes | number of read bytes | long long | B | ||
disk.0.wr_req | number of write requests | long long | |||
disk.0.wr_bytes | number of written bytes | long long | B | ||
disk.0.errs | In Xen this returns the mysterious 'oo_req' | long long | |||
disk.0.rd_speed | 磁盘平均读取速度 | float | B/s | ||
disk.0.wr_speed | 磁盘平均写入速度 | float | B/s | ||
网络信息 | net.0.name | 第一块网卡的名称,中间的数字是编号,从0开始,下同 | string | ||
net.0.rx_bytes | 接收的字节数 | long long | B | ||
net.0.rx_packets | 接收的包 | long long | |||
net.0.rx_errs | long long | ||||
net.0.rx_drop | long long | ||||
net.0.tx_bytes | 发送的字节数 | long long | B | ||
net.0.tx_packets | 发送的包 | long long | |||
net.0.tx_errs | long long | ||||
net.0.tx_drop | long long | ||||
net.0.rx_speed | 平均接收速度 | float | B/s | ||
net.0.tx_speed | 平均发送速度 | float | B/s | ||
GPU | gpu.graphicsDriverVersion | 图形驱动程序版本号 | string | ||
gpu.nvmlVersion | NVML库版本号 | string | |||
gpu.cudaVersion | cuda驱动版本号 | string | |||
gpu.0.name | 第一块GPU的名称,中间的数字是编号,从0开始,下同 | string | |||
gpu.0.busId | GPU的总线ID | string | |||
gpu.0.memTotal | GPU显存大小 | unsigned long long | B | ||
gpu.0.memFree | GPU显存空闲大小 | unsigned long long | B | ||
gpu.0.memUsed | GPU显存已占用大小 | unsigned long long | B | ||
gpu.0.gpuUtilization | GPU利用率:在过去的采样周期中,一个或多个内核在 GPU 上执行的时间百分比 | unsigned int | |||
gpu.0.memUtilization | 显存利用率:在过去的采样周期中读取或写入全局(设备)内存的时间百分比 | unsigned int | |||
gpu.0.powerUsage | GPU使用功率 | unsigned int | milliwatt 毫瓦(特) | ||
gpu.0.powerCap | GPU最大功率 | unsigned int | milliwatt 毫瓦(特) | ||
gpu.0.temperature | GPU当前温度 | unsigned int | degrees C | ||
协议 | version | dbc的版本号 | string |
显卡监控必读
因为宿主机上对显卡设备的隔离,导致 dbc 无法直接获取显卡的具体信息。因此我们在 qemu guest agent 的基础上,集成了 NVIDIA Management Library 的功能,实现了一套独立的服务,即 dbc guest agent,通过与虚拟机的通信,来获取虚拟机里面的显卡详细信息。
对于自定义的镜像,想要监控显卡信息,请在虚拟机内部安装 dbc guest agent 服务。
- Ubuntu 虚拟机安装脚本:http://112.192.16.27:9000/dbc_guest_agent/install.sh
- Windows 64 位虚拟机安装程序:http://112.192.16.27:9000/dbc_guest_agent/qemu-ga-x86_64.msi
注意!
显卡监控暂时只支持 NVIDIA 显卡。
显卡监控只能看到已被虚拟机使用的显卡设备。
使用率和速度的计算
- CPU 使用率 = (cpuTime2 - cpuTime1) / (实际时间 2 - 实际时间 1) / CPU 个数
- 内存使用率 = (total - unused) / total
- 磁盘平均读取速度 = (rd_bytes2 - rd_bytes1) / (实际时间 2 - 实际时间 1)
- 平均接收速度 = (rx_bytes2 - rx_bytes1) / (实际时间 2 - 实际时间 1)
注意!
当两次采集数据间隔时间很长,比如每分钟采集一次,则磁盘读写速度和网络传输速度只能代表平均速度,无法表示实时速度。
Loading...