Tôi đang theo dõi một số máy đa GPU và muốn tạo biểu đồ sử dụng CPU/GPU kết hợp với GPU là dương và CPU là âm.
Tôi có thể tạo một biểu đồ như vậy tốt cho một GPU duy nhất chống lại 100 - (cpu.idle / #cores)
, nhưng gặp sự cố khi cố gắng sử dụng các giá trị sử dụng GPU trung bình, như được tính toán bằng cách sử dụng Tổng
và cdef
.
Dưới đây là bốn tình huống để minh họa các sự cố đối với máy có hai GPU. Cấu hình và đầu ra được hiển thị bên dưới một mô tả ngắn:
- đường cơ sở. Tôi có thể vẽ các giá trị CPU và GPU riêng lẻ mà không gặp vấn đề gì.
# Hiển thị các giá trị riêng lẻ mà không gặp vấn đề gì
test0.graph_title Kiểm tra 0: giá trị cơ sở
test0.graph_args --base 1000 -l -100 -u 100 -r
test0.graph_vlabel CPU/GPU
hệ thống test0.graph_category
test0.graph_order \
cpu=multigpu.example.com:cpu.idle \
gpu1=multigpu.example.com:nvidia_gpu_utilization.utilization0 \
gpu2=multigpu.example.com:nvidia_gpu_utilization.utilization1
test0.cpu.cdef 100,cpu,48,/,-
- Tôi cũng có thể tạo biểu đồ GPU-dương-CPU-âm tính dự định của mình mà không gặp vấn đề gì đối với việc sử dụng GPU riêng lẻ kết hợp với
cdef
'd giá trị CPU
# Hiển thị chính xác giá trị GPU0 là dương, giá trị CPU là âm
test1.graph_title Kiểm tra 1: trực tiếp
test1.graph_args --base 1000 -l -100 -u 100 -r
test1.graph_vlabel CPU/GPU
hệ thống test1.graph_category
test1.graph_order \
cpu=multigpu.example.com:cpu.idle \
gpu1=multigpu.example.com:nvidia_gpu_utilization.utilization0
test1.cpu.cdef 100,cpu,48,/,-
test1.cpu.graph không
cpu test1.gpu1.negative
- Nếu tôi chỉ vẽ sơ đồ CPU và giá trị trung bình của 2 GPU trên cùng một biểu đồ, thì giá trị CPU không còn chính xác nữa mà có vẻ là tổng của giá trị trung bình GPU và giá trị CPU? Không biết chuyện gì đang xảy ra ở đây ...
# Giá trị CPU hiển thị không chính xác ở đây
test2.graph_title Kiểm tra 2: nghĩa là
test2.graph_args --base 1000 -l -100 -u 100 -r
test2.graph_vlabel CPU/GPU
hệ thống test2.graph_category
test2.graph_order \
cpu=multigpu.example.com:cpu.idle \
GPU
test2.cpu.cdef 100,cpu,48,/,-
gpu test2.gpu.label nghĩa là gì
test2.gpu.sum \
multigpu.example.com:nvidia_gpu_utilization.utilization0 \
multigpu.example.com:nvidia_gpu_utilization.utilization1
test2.gpu.cdef gpu,2,/
- Nếu tôi cố gắng kết hợp chúng thành một biểu đồ dương/âm, các lỗi kết xuất với
Không phải là một ccpu vname hợp lệ
trong munin-graph.log (trong đó 'cpu' là tên biến của tôi)
test3.graph_title Kiểm tra 3: lên/xuống
test3.graph_args --base 1000 -l -100 -u 100 -r
test3.graph_vlabel CPU/GPU
hệ thống test3.graph_category
test3.graph_order \
cpu=multigpu.example.com:cpu.idle \
GPU
test3.cpu.cdef 100,cpu,48,/,-
gpu test3.gpu.label nghĩa là gì
test3.gpu.sum \
multigpu.example.com:nvidia_gpu_utilization.utilization0 \
multigpu.example.com:nvidia_gpu_utilization.utilization1
test3.gpu.cdef gpu,2,/
test3.cpu.graph không
cpu test3.gpu.negative
munin-graph.log:
25/06/2021 16:21:28 [RRD ERROR] Không thể vẽ đồ thị test3-day.png : Không phải vname hợp lệ: ccdefcpu trong dòng GPRINT:ccdefcpu:LAST:%6.2lf%s/\g
25/06/2021 16:21:28 [RRD ERROR] rrdtool 'graph' 'test3-day.png' \
'--Tiêu đề' \
'Test 3: up/down - theo day' \
'--bắt đầu' \
'-2000m' \
'--căn cứ' \
'1000' \
'-l' \
'-100' \
'-u' \
'100' \
'-r' \
'--vertical-nhãn' \
'CPU/GPU' \
'--slope-mode' \
'--Chiều cao' \
'175' \
'--chiều rộng' \
'400' \
'--imgformat' \
'PNG' \
'--lười biếng' \
'--nét chữ' \
'MẶC ĐỊNH:0:DejaVuSans,DejaVu Sans,DejaVu LGC Sans,Bitstream Vera Sans' \
'--nét chữ' \
'LEGEND:7:DejaVuSansMono,DejaVu Sans Mono,DejaVu LGC Sans Mono,Bitstream Vera Sans Mono,monospace' \
'--màu' \
'QUAY LẠI#F0F0F0' \
'--màu' \
'KHUNG#F0F0F0' \
'--màu' \
'CANVAS#FFFFFF' \
'--màu' \
'FONT#666666' \
'--màu' \
'TRỤC#CFD6F8' \
'--màu' \
'MŨI TÊN#CFD6F8' \
'--ranh giới' \
'0' \
'-W' \
'Munin 2.0.66' \
'DEF:acpu=/var/lib/munin/multigpu.example.com-cpu-idle-d.rrd:42:MAX' \
'DEF:icpu=/var/lib/munin/multigpu.example.com-cpu-idle-d.rrd:42:MIN' \
'DEF:gcpu=/var/lib/munin/multigpu.example.com-cpu-idle-d.rrd:42:AVERAGE' \
'DEF:az2_1=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization1-g.rrd:42:MAX' \
'DEF:iz2_1=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization1-g.rrd:42:MIN' \
'DEF:gz2_1=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization1-g.rrd:42:AVERAGE' \
'DEF:az2_0=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization0-g.rrd:42:MAX' \
'DEF:iz2_0=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization0-g.rrd:42:MIN' \
'DEF:gz2_0=/var/lib/munin/multigpu.example.com-nvidia_gpu_utilization-utilization0-g.rrd:42:AVERAGE' \
'CDEF:acdefz2_0=az2_0,UN,0,az2_0,IF' \
'CDEF:icdefz2_0=iz2_0,UN,0,iz2_0,IF' \
'CDEF:gcdefz2_0=gz2_0,UN,0,gz2_0,IF' \
'CDEF:ccdefz2_0=gcdefz2_0' \
'CDEF:acdefz2_1=az2_1,UN,0,az2_1,IF,acdefz2_0,ADDNAN,2,/' \
'CDEF:icdefz2_1=iz2_1,UN,0,iz2_1,IF,icdefz2_0,ADDNAN,2,/' \
'CDEF:gcdefz2_1=gz2_1,UN,0,gz2_1,IF,gcdefz2_0,ADDNAN,2,/' \
'CDEF:ccdefz2_1=gcdefz2_1' \
'BÌNH LUẬN: ' \
'NHẬN:Cur (-/+)' \
'NHẬN:Tối thiểu (-/+)' \
'NHẬN:Trung bình (-/+)' \
'NHẬN:Tối đa (-/+) \j' \
'LINE1:gcdefz2_1#00CC00:gpu nghĩa là ' \
'GPRINT:ccdefcpu:LAST:%6.2lf%s/\g' \
'GPRINT:ccdefz2_1:LAST:%6.2lf%s' \
'GPRINT:icdefcpu:MIN:%6.2lf%s/\g' \
'GPRINT:icdefz2_1:MIN:%6.2lf%s' \
'GPRINT:gcdefcpu:AVERAGE:%6.2lf%s/\g' \
'GPRINT:gcdefz2_1:AVERAGE:%6.2lf%s' \
'GPRINT:acdefcpu:MAX:%6.2lf%s/\g' \
'GPRINT:acdefz2_1:MAX:%6.2lf%s\j' \
'CDEF:acdefcpu=100,acpu,48,/,-' \
'CDEF:icdefcpu=100,icpu,48,/,-' \
'CDEF:gcdefcpu=100,gcpu,48,/,-' \
'CDEF:ccdefcpu=gcdefcpu' \
'CDEF:re_zero=gcdefcpu,UN,0,0,IF' \
'CDEF:ngcdefcpu=gcdefcpu,-1,*' \
'LINE1:ngcdefcpu#00CC00' \
'LINE1:re_zero#000000' \
'VRULE:1624630818#999999' \
'NHẬN:Cập nhật lần cuối\: Thứ sáu ngày 25 tháng 6 năm 16\:20\:18 năm 2021\r' \
'--chấm dứt' \
'1624630500'
25/06/2021 16:21:28 [LỖI RRD] Không thể vẽ đồ thị test3-week.png : Không phải là vname hợp lệ: ccpu trong dòng GPRINT:ccpu:LAST:%6.2lf%s/\g
[... chi tiết lặp đi lặp lại được bỏ qua cho ngắn gọn ...]
25/06/2021 16:21:28 [RRD ERROR] Không thể vẽ đồ thị test3-month.png : Không phải vname hợp lệ: ccdefcpu trong dòng GPRINT:ccdefcpu:LAST:%6.2lf%s/\g
[…]