Tôi đã cố gắng cả ngày để GPU (v100) này hoạt động trên máy ảo Ubuntu mới. Tôi đã thử cài đặt trình điều khiển và khởi động lại, cũng như xóa/gỡ cài đặt mọi thứ liên quan đến nvidia nhưng dường như không có thứ nào trong số này hoạt động.
Đặc biệt tôi đã chạy cái này cụ thể:
cập nhật phù hợp;
apt cài đặt bản dựng cần thiết;
sudo add-apt-repository ppa: trình điều khiển đồ họa
Sudo apt cài đặt ubuntu-drivers-common
thiết bị trình điều khiển Ubuntu
sudo apt-get cài đặt nvidia-driver-460
Sudo khởi động lại ngay bây giờ
Sau đó, đôi khi có vẻ như nvidia-smi đang hoạt động (khi viết câu hỏi này thì không phải vậy nên tôi không thể sao chép, dán những gì được nói khi nó hoạt động) nhưng khi nó không hoạt động thì nó báo như sau:
(tổng hợp) miranda9@miranda9:~$nvidia-smi
Không thể xác định tay cầm thiết bị cho GPU 0000:00:06.0: Lỗi không xác định
bất kỳ trợ giúp được đánh giá cao.
Lưu ý rằng tôi cũng không có quyền truy cập vào tệp vmx của máy ảo nên câu hỏi và câu trả lời này là vô ích/vô nghĩa đối với tôi: https://forums.developer.nvidia.com/t/nvidia-smi-reports-unable-to-determine-the-device-handle-for-gpu/46835
Ngoài ra, tôi đã cố gỡ cài đặt mọi thứ khỏi nivida và cài đặt lại bằng:
Sudo apt-get --purge xóa "*nvidia*"
sudo /usr/bin/nvidia-gỡ cài đặt
sau đó
cập nhật phù hợp;
apt cài đặt bản dựng cần thiết;
sudo add-apt-repository ppa: trình điều khiển đồ họa
Sudo apt cài đặt ubuntu-drivers-common
thiết bị trình điều khiển Ubuntu
sudo apt-get cài đặt nvidia-driver-460
Sudo khởi động lại ngay bây giờ
nhưng điều đó dường như không làm việc
Thông tin thêm trong trường hợp nó giúp:
(tổng hợp) miranda9@miranda9:~$ lsb_release -a
Không có mô-đun LSB nào khả dụng.
ID nhà phân phối: Ubuntu
Mô tả: Ubuntu 20.04.2 LTS
Phát hành: 20.04
Tên mã: tiêu cự
Mà còn:
(tổng hợp) miranda9@miranda9:~$python
Python 3.9.5 (mặc định, ngày 4 tháng 6 năm 2021, 12:28:51)
[GCC 7.5.0] :: Anaconda, Inc. trên linux
Nhập "trợ giúp", "bản quyền", "tín dụng" hoặc "giấy phép" để biết thêm thông tin.
>>> đèn pin nhập khẩu
>>> torch.cuda.is_available()
/home/miranda9/miniconda3/envs/synthesis/lib/python3.9/site-packages/torch/cuda/__init__.py:52: Cảnh báo người dùng: Khởi tạo CUDA: Lỗi không mong muốn từ cudaGetDeviceCount(). Bạn đã chạy một số hàm cuda trước khi gọi NumCudaDevices() có thể đã báo lỗi chưa? Lỗi 101: thứ tự thiết bị không hợp lệ (Được kích hoạt nội bộ tại /opt/conda/conda-bld/pytorch_1623448238472/work/c10/cuda/CUDAFunctions.cpp:115.)
trả lại ngọn đuốc._C._cuda_getDeviceCount() > 0
Sai
Theo yêu cầu của nhận xét:
# lspci
00:00.0 Cầu máy chủ: Intel Corporation 440FX - 82441FX PMC [Natoma] (rev 02)
00:01.0 Cầu nối ISA: Tập đoàn Intel 82371SB PIIX3 ISA [Natoma/Triton II]
00:01.1 Giao diện IDE: Intel Corporation 82371SB PIIX3 IDE [Natoma/Triton II]
00:01.2 Bộ điều khiển USB: Intel Corporation 82371SB PIIX3 USB [Natoma/Triton II] (rev 01)
00:01.3 Cầu nối: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (rev 01)
00:02.0 Bộ điều khiển tương thích VGA: Cirrus Logic GD 5446
00:03.0 Bộ điều khiển lưu trữ SCSI: XenSource, Inc. Thiết bị nền tảng Xen (rev 01)
00:05.0 Thiết bị ngoại vi hệ thống: XenSource, Inc. Thiết bị PCI Citrix XenServer dành cho Windows Update (rev 01)
00:06.0 Bộ điều khiển 3D: Tập đoàn NVIDIA GV100GL [Tesla V100 PCIe 16GB] (rev a1)
vm khác:
$ lspci
00:00.0 Cầu máy chủ: Intel Corporation 440FX - 82441FX PMC [Natoma] (rev 02)
00:01.0 Cầu nối ISA: Tập đoàn Intel 82371SB PIIX3 ISA [Natoma/Triton II]
00:01.1 Giao diện IDE: Intel Corporation 82371SB PIIX3 IDE [Natoma/Triton II]
00:01.2 Bộ điều khiển USB: Intel Corporation 82371SB PIIX3 USB [Natoma/Triton II] (rev 01)
00:01.3 Cầu nối: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (rev 01)
00:02.0 Bộ điều khiển tương thích VGA: Cirrus Logic GD 5446
00:03.0 Bộ điều khiển lưu trữ SCSI: XenSource, Inc. Thiết bị nền tảng Xen (rev 01)
00:05.0 Thiết bị ngoại vi hệ thống: XenSource, Inc. Thiết bị PCI Citrix XenServer dành cho Windows Update (rev 01)
00:06.0 Bộ điều khiển 3D: Tập đoàn NVIDIA GV100GL [Tesla V100 PCIe 16GB] (rev a1)
Tài nguyên tôi đã tìm kiếm trợ giúp: