Điểm:1

nvidia-smi ngừng hoạt động sau khi cài đặt cuda-toolkit

lá cờ sa

TLDR

tôi đang cố gắng để có được nvidia-smi sao lưu, hoạt động tốt cho đến khi tôi cài đặt cuda-toolkit. Gỡ cài đặt bộ công cụ cuda không giúp được gì. Làm thế nào tôi có thể khôi phục lại nvidia-smi đầu ra?

NVIDIA-SMI đã bị lỗi vì nó không thể giao tiếp với NVIDIA người lái xe. Đảm bảo rằng trình điều khiển NVIDIA mới nhất đã được cài đặt và đang chạy.


Thêm chi tiết

Tôi đã cài đặt GEFORCE RTX 2070 trên máy tính xách tay chạy Ubuntu 18.04 của mình và đã cài đặt thành công trình điều khiển của nó từ tệp thực thi chính thức NVIDIA-Linux-x86_64-470.63.01.run. Đây là đầu ra của nvidia-smi từ cài đặt đó:

nhập mô tả hình ảnh ở đây

Tiếp theo, tôi đã cài đặt cuda-toolkit từ runfile chính thức cuda_11.4.2_470.57.02_linux.run, đảm bảo bỏ chọn Cài đặt trình điều khiển. Đây là cửa sổ terminal ngay sau khi cài đặt xong:

nhập mô tả hình ảnh ở đây

Ngay sau đó, khi tôi đã làm nvidia-smi, Tôi có:

NVIDIA-SMI đã bị lỗi vì nó không thể giao tiếp với NVIDIA người lái xe. Đảm bảo rằng trình điều khiển NVIDIA mới nhất đã được cài đặt và đang chạy.

Vì đó là cài đặt của bộ công cụ cuda có lẽ đã "hỏng" nvidia-smi, tôi đã gỡ cài đặt cuda-toolkit (bằng cách chạy trình gỡ cài đặt cuda tìm thấy trong /usr/local/cuda-11.4/bin, như đã nêu trong văn bản được tạo sau khi cài đặt).

Thật không may, điều đó không giúp được gì và nvidia-smi vẫn bị hỏng. Lý do tôi cài đặt từ các tệp chạy chính thức của NVIDIA là vì trước đây tôi gặp sự cố khi cài đặt trình điều khiển từ kho Ubuntu, nhưng có thể làm cho nó hoạt động với trình điều khiển chính thức. Vì vậy, tôi nghĩ rằng tôi sẽ thử điều tương tự với cuda-toolkit.

Làm thế nào tôi có thể lấy lại nvidia-smi?

Đầu ra của một số lệnh, nếu có liên quan

  • nvidia-smi nào : /usr/bin/nvidia-smi
  • mokutil --sb-state : Khởi động an toàn bị vô hiệu hóa
  • cài đặt nvidia :
    • LỖI: Trình điều khiển NVIDIA không được tải
    • LỖI: Không thể tải thông tin từ bất kỳ hệ thống khả dụng nào
  • ls /sys/firmware/efi/ :
    • config_table efivars esrt fw_platform_size fw_vendor runtime runtime-map systab vars
  • lspci -k | grep -EA2 'VGA|3D' :

00:02.0 Bộ điều khiển tương thích VGA: Intel Corporation CometLake-H GT2 [Đồ họa UHD] (rev 05)
Hệ thống con: Micro-Star International Co., Ltd. [MSI] Thiết bị 12ae
Trình điều khiển hạt nhân đang sử dụng: i915

01:00.0 Bộ điều khiển tương thích với VGA: NVIDIA Corporation TU106M [GeForce RTX 2070 Mobile / > Max-Q Refresh] (rev a1)
Hệ thống con: Micro-Star International Co., Ltd. [MSI] Thiết bị 12ae
Mô-đun hạt nhân: nvidiafb, nouveau

  • con mèo /etc/modprobe.d/blacklist-nouveau.conf :

tân danh sách đen
danh sách đen vga16b
danh sách đen rivafb
danh sách đen nvidiafb
danh sách đen rivatv
danh sách đen AMD76_edac
bí danh mới tắt
bí danh lbm-nouveau tắt
tùy chọn mới modeset=0

  • mèo /proc/phiên bản :

    • Phiên bản Linux 5.4.0-84-generic (buildd@lcy01-amd64-007) (phiên bản gcc 7.5.0 (Ubuntu 7.5.0-3ubuntu1~18.04)) #94~18.04.1-Ubuntu SMP Thứ năm ngày 26 tháng 8 23:17 :46 UTC 2021
  • sudo lshw -c video : (Màn hình NVIDIA là "không có người nhận", nhưng đây là cách nó nên như vậy)

nhập mô tả hình ảnh ở đây

  • trạng thái dkms : không có đầu ra
  • lsmod | grep nvidia :
    • i2c_nvidia_gpu 16384 0
  • tiếng vang $XDG_SESSION_TYPE : x11
  • đâu là nvidia :
    • nvidia: /usr/lib/x86_64-linux-gnu/nvidia /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-470.63.01/nvidia
  • grep nvidia /etc/modprobe.d/* /lib/modprobe.d/*:

/etc/modprobe.d/blacklist-framebuffer.conf:blacklist nvidiafb
/etc/modprobe.d/blacklist-nouveau.conf:blacklist nvidiafb
/etc/modprobe.d/nvidia-installer-disable-nouveau.conf:# được tạo bởi nvidia-installer
/lib/modprobe.d/nvidia-runtimepm.conf:options nvidia "NVreg_DynamicPowerManagement=0x02"

Bài đăng / Câu hỏi tôi đã xem:

lá cờ cc
Hệ thống của bạn /usr/bin/gcc --version phải là 9.3.0 và nếu bạn đã thay đổi PATH của mình, có thể gcc --version có thể là một số khác, chứ không phải 7.5. Khi thay đổi phiên bản gcc cho CUDA, không thay đổi mặc định của hệ thống (không bao giờ sử dụng /etc/alternatives cho gcc!!!!). Thao tác gcc của CUDA thông qua cuda/bin có liên kết (hoặc tệp thực thi) đến phiên bản được yêu cầu. Số trình điều khiển Nvidia trong kho tiêu chuẩn là 470.63.01, vì vậy tôi sẽ sử dụng số đó sau khi dọn sạch tất cả các gói Nvidia hiện có.
MorganStark47 avatar
lá cờ sa
Được rồi, vì vậy `gcc --version` thực sự là 7.5.Để nâng cấp lên 9 (đã được cài đặt), tôi đã sử dụng `Sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-9 9` và `Sudo update-alternatives --install /usr/bin /g++ g++ /usr/bin/g++-9 9` nên bây giờ `/usr/bin/gcc --version` và `/usr/bin/g++ --version` trả về 9.4.0. Tuy nhiên, lỗi với nvidia-smi vẫn còn. Trình điều khiển có yêu cầu cài đặt lại không? Cài đặt trình điều khiển không phải là một quá trình nhanh chóng và dễ dàng - ít nhất là đối với tôi - vì vậy đó là điều tôi chỉ làm khi cần thiết.
lá cờ cc
Sự nhầm lẫn của tôi, hạt nhân của bạn khiến tôi nghĩ rằng 20.04 với gcc 9.3 mặc định. Tôi đã thêm các thẻ HWE và 18.04. Tôi không sử dụng bất kỳ CTNH nào, vì vậy không chắc nó hoạt động như thế nào --, yêu cầu một phiên bản trình biên dịch mặc định cho nhân/mô-đun (9.3) và một phiên bản khác cho phần còn lại của hệ thống (7.5?). Không chắc gcc 9.4 ver của bạn đến từ đâu trừ khi nó dành cho HWE cho ngày 21.04 (nhưng tại sao kernel không cập nhật?). Tôi cho rằng có thể sử dụng update-alternatives 9.3 cho gcc, --reconfigure gói nvidia-driver-470 để biên dịch lại, sau đó chuyển về gcc 7.5 cho phần còn lại của hệ thống.
MorganStark47 avatar
lá cờ sa
Cảm ơn bạn đã thêm các thẻ. "cấu hình lại nvidia-driver-470 để biên dịch lại" - hm vì `nvidia-settings` không hoạt động (đầu ra được bao gồm trong câu hỏi) Tôi không chắc mình sẽ làm điều đó như thế nào.
Điểm:1
lá cờ sa

Tôi đã xóa tất cả nội dung nvidia và sau đó thử sudo ubuntu-drivers tự động cài đặt theo dõi bởi khởi động lại sudo sau đó nvidia-smi hoạt động tốt.

nhập mô tả hình ảnh ở đây

Vì vậy, tôi đoán giải pháp là cài đặt lại trình điều khiển NVIDIA.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.