Chúng tôi có một Máy chủ Supermicro AS-4124GS-TNR mới được trang bị tám NVIDIA RTX A6000. HĐH là Ubuntu 20.04.2, phiên bản trình điều khiển NVIDIA là 460.73.01 (không sử dụng trình điều khiển Nouveau), Phiên bản CUDA là 11.2.
Chúng tôi đã chạy một số thử nghiệm lâu dài trên GPU và hệ thống ổn định. Tuy nhiên, sau khi một số GPU chạy không hoạt động, hệ thống bị lỗi liên tục.
Chúng tôi cho rằng GpuPowerMizerMode
phải được đặt thành 1 để tránh sự cố trong khi GPU chạy không tải (một giả định được hỗ trợ bởi các báo cáo người dùng khác được tìm thấy trên internet).
Cách duy nhất để làm điều này mà chúng tôi biết là bắt đầu X (ví dụ: bằng cách bắt đầu gdm) và sau đó đặt giá trị tương ứng thông qua cài đặt nvidia
(đang chạy cài đặt nvidia
không có X/gdm dẫn đến "Không thể khởi tạo máy chủ: Không thể kết nối: Kết nối bị từ chối."). Nhưng khi dừng X/gdm, GpuPowerMizerMode
giá trị được tự động đặt lại thành 2. Thật không may, giữ cho X/gdm chạy không phải là một tùy chọn vì điều này cũng dẫn đến sự mất ổn định của hệ thống.
Vì vậy, vấn đề của chúng tôi dường như là như sau:
- GPU chạy không tải +
GpuPowerMizerMode
!= 1 có thể dẫn đến đóng băng hệ thống. GpuPowerMizerMode
chỉ có thể được thiết lập thông qua cài đặt nvidia
được kết nối với X/dm đang chạy (?). Để liên tục đặt giá trị thành 1 X/dm(?) Phải tiếp tục chạy.
- X/gdm đang chạy có thể gây ra sự cố hệ thống.
Các giả định của chúng tôi có đúng không? / Có phải những người khác cũng gặp phải những vấn đề cụ thể này?
Làm cách nào chúng tôi có thể giải quyết vấn đề đóng băng trong khi GPU chạy không tải?