Điểm:1

Máy chủ GPU đóng băng trong khi GPU chạy không tải

lá cờ ar

Chúng tôi có một Máy chủ Supermicro AS-4124GS-TNR mới được trang bị tám NVIDIA RTX A6000. HĐH là Ubuntu 20.04.2, phiên bản trình điều khiển NVIDIA là 460.73.01 (không sử dụng trình điều khiển Nouveau), Phiên bản CUDA là 11.2.

Chúng tôi đã chạy một số thử nghiệm lâu dài trên GPU và hệ thống ổn định. Tuy nhiên, sau khi một số GPU chạy không hoạt động, hệ thống bị lỗi liên tục.

Chúng tôi cho rằng GpuPowerMizerMode phải được đặt thành 1 để tránh sự cố trong khi GPU chạy không tải (một giả định được hỗ trợ bởi các báo cáo người dùng khác được tìm thấy trên internet).

Cách duy nhất để làm điều này mà chúng tôi biết là bắt đầu X (ví dụ: bằng cách bắt đầu gdm) và sau đó đặt giá trị tương ứng thông qua cài đặt nvidia (đang chạy cài đặt nvidia không có X/gdm dẫn đến "Không thể khởi tạo máy chủ: Không thể kết nối: Kết nối bị từ chối."). Nhưng khi dừng X/gdm, GpuPowerMizerMode giá trị được tự động đặt lại thành 2. Thật không may, giữ cho X/gdm chạy không phải là một tùy chọn vì điều này cũng dẫn đến sự mất ổn định của hệ thống.

Vì vậy, vấn đề của chúng tôi dường như là như sau:

  1. GPU chạy không tải + GpuPowerMizerMode != 1 có thể dẫn đến đóng băng hệ thống. GpuPowerMizerMode chỉ có thể được thiết lập thông qua cài đặt nvidia được kết nối với X/dm đang chạy (?). Để liên tục đặt giá trị thành 1 X/dm(?) Phải tiếp tục chạy.
  2. X/gdm đang chạy có thể gây ra sự cố hệ thống.

Các giả định của chúng tôi có đúng không? / Có phải những người khác cũng gặp phải những vấn đề cụ thể này?

Làm cách nào chúng tôi có thể giải quyết vấn đề đóng băng trong khi GPU chạy không tải?

Điểm:1
lá cờ cz

Không cần thiết phải bắt đầu một phiên GUI (hoặc thậm chí đã cài đặt một phiên!) để thay đổi các cài đặt như thế này; cài đặt nvidia sẽ hoạt động tốt từ bảng điều khiển bộ đệm khung hoặc thậm chí trong tập lệnh bạn viết chạy khi khởi động.

Kiểm tra để chắc chắn:

# cài đặt nvidia -q GpuPowerMizerMode

  Thuộc tính 'GPUPowerMizerMode' (blacktemple:1[gpu:0]): 1.
    Các giá trị hợp lệ cho 'GPUPowerMizerMode' là: 0, 1 và 2.
    'GPUPowerMizerMode' có thể sử dụng các loại mục tiêu sau: GPU.

Đối với tám GPU, chỉ cần viết một tập lệnh đơn giản, đại loại như:

cho n trong $(seq 0 7); làm
    nvidia-settings -a "[gpu:$n]/GpuPowerMizerMode=1"
xong

và chạy nó khi khởi động theo bất kỳ cách nào bạn thấy thuận tiện.


Tôi không thể nói liệu sự cố của bạn có phải do chạy với GpuPowerMizerMode!=1 hay không. Nếu đúng như vậy, thì có thể bạn có một số loại phần cứng bị lỗi mà bạn nên theo dõi và thay thế.

user776206 avatar
lá cờ ar
Chạy cài đặt nvidia mà không chạy và sử dụng X/gdm dẫn đến 'Không thể khởi tạo máy chủ: Không thể kết nối: Kết nối bị từ chối.'
Michael Hampton avatar
lá cờ cz
@ user776206 Hừm, thật bất ngờ. Chút nữa tôi sẽ đi chơi với nó.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.