Điểm:0

Màn hình đen sau khi cài đặt CUDA, UBUNTU 20.04

lá cờ us

Xin chào, có ai có thể giúp tôi không? Tôi có một màn hình đen sau khi cài đặt trình điều khiển nvidia cuda.

UBUNTU 20.04, kernel 5.8.0-55-chung

NVIDIA-SMI 465.27
Phiên bản trình điều khiển: 465.27
Phiên bản CUDA: 11.3

RAM 20gb, Nvidia mx150 2gb, Intel Core i7-8550U.

Tôi cũng nhận được thông báo này khi cố gắng chạy một mô hình: "Lỗi Runtime: CUDA hết bộ nhớ. Đã cố phân bổ 20,00 MiB (GPU 0; tổng dung lượng 1,96 GiB; 2,00 MiB đã được phân bổ; 9,50 MiB miễn phí; tổng dung lượng dự trữ 4,00 MiB bởi PyTorch)"

Bit từ một TẬP TIN NHẬT KÝ:

[29319.635864] NVRM:Quy trình thăm dò NVIDIA không thành công đối với 1 thiết bị.

[29319.000029] NVRM: Không có thiết bị NVIDIA nào được khởi chạy.

[29319.002993] nvidia-nvlink: Chưa đăng ký Nvlink Core, thiết bị chính số 234

[29319.635059] nvidia-nvlink: Nvlink Core đang được khởi tạo, thiết bị chính số 234

[29319.635823] NVRM: Đây là BAR 64 bit được hệ thống ánh xạ trên 4GB

[29319.635823] NVRM: BIOS hoặc nhân Linux, nhưng cầu nối PCI

[29319.635823] NVRM: ngược dòng trực tiếp của GPU này không xác định-màn hình đen-sau-
cài đặt-nvidia-driver-ubuntu/109312

[29319.635823] NVRM: cửa sổ bộ nhớ có thể tìm nạp trước phù hợp.
[29319.635824] NVRM: Điều này có thể là do lỗi nhân Linux đã biết. Xin vui lòng

[29319.635824] NVRM: xem phần README trên BAR 64 bit để biết thêm

[29319.635824] NVRM: thông tin.

*************************************************** ********

cầu dmesg |grep -i
[ 0.303414] PCI: Sử dụng cửa sổ cầu nối máy chủ từ ACPI; nếu cần, hãy sử dụng "pci=nocrs" và báo cáo lỗi
[ 0.339965] ACPI: Cầu nối gốc PCI [PCI0] (miền 0000 [bus 00-fe])
[ 0.347519] Cầu nối máy chủ PCI với xe buýt 0000:00
[ 0.368977] pci 0000:00:1c.0: Cầu nối PCI tới [bus 01]
[ 0.368980] pci 0000:00:1c.0: cửa sổ cầu nối [io 0x4000-0x4fff]
[ 0.368984] pci 0000:00:1c.0: cửa sổ cầu [mem 0x93000000-0x93ffffff]
[ 0.368989] pci 0000:00:1c.0: cửa sổ cầu nối [mem 0x80000000-0x91ffffff 64bit pref]
[ 0.369455] pci 0000:00:1c.4: Cầu nối PCI tới [bus 02]
[ 0.369458] pci 0000:00:1c.4: cửa sổ cầu nối [io 0x3000-0x3fff]
[ 0.369461] pci 0000:00:1c.4: cửa sổ cầu nối [mem 0x94100000-0x941fffff]
[ 0.374209] pci 0000:00:1c.5: Cầu nối PCI tới [bus 03]
[ 0.374214] pci 0000:00:1c.5: cửa sổ cầu nối [mem 0x94000000-0x940fffff]
[ 0.379452] pci 0000:00:02.0: vgaarb: có thể điều khiển cầu nối
[ 0.441100] pci 0000:01:00.0: không thể yêu cầu BAR 6 [mem 0xfff80000-0xffffffff pref]: không có cửa sổ cầu nối tương thích
[ 0.441116] pci 0000:00:1c.0: Cầu nối PCI tới [bus 01]
[ 0.441119] pci 0000:00:1c.0: cửa sổ cầu nối [io 0x4000-0x4fff]
[ 0.441124] pci 0000:00:1c.0: cửa sổ cầu nối [mem 0x93000000-0x93ffffff]
[ 0.441127] pci 0000:00:1c.0: cửa sổ cầu nối [mem 0x80000000-0x91ffffff 64bit pref]
[ 0.441133] pci 0000:00:1c.4: Cầu nối PCI với [bus 02]
[ 0.441135] pci 0000:00:1c.4: cửa sổ cầu nối [io 0x3000-0x3fff]
[ 0.441139] pci 0000:00:1c.4: cửa sổ cầu nối [mem 0x94100000-0x941fffff]
[ 0.441146] pci 0000:00:1c.5: Cầu nối PCI với [bus 03]
[ 0.441150] pci 0000:00:1c.5: cửa sổ cầu nối [mem 0x94000000-0x940fffff]
Cầu [ 8.398806]: lọc qua arp/ip/ip6tables không còn khả dụng theo mặc định. Cập nhật tập lệnh của bạn để tải br_netfilter nếu bạn cần.


******************
dmesg | thanh grep
[ 0.348927] pci 0000:00:02.0: BAR 2: được gán cho efifb
[ 0.441100] pci 0000:01:00.0: không thể yêu cầu BAR 6 [mem 0xfff80000-0xffffffff pref]: không có cửa sổ cầu nối tương thích
[ 0.441113] pci 0000:01:00.0: BAR 6: không có dung lượng cho [kích thước bộ nhớ 0x00080000 pref]
[ 0.441114] pci 0000:01:00.0: BAR 6: không thể gán [kích thước bộ nhớ 0x00080000 pref]

***************

bộ nhớ sudo lshw -c

*-bộ nhớ KHÔNG ĐƯỢC YÊU CẦU
       Mô tả: Bộ điều khiển bộ nhớ
       sản phẩm: Sunrise Point-LP PMC
       nhà cung cấp: Tập đoàn Intel
       id vật lý: 1f.2
       thông tin xe buýt: pci@0000:00:1f.2
       phiên bản: 21
       chiều rộng: 32 bit
       xung nhịp: 33MHz (30,3ns)
       khả năng: bus_master
       cấu hình: độ trễ = 0
       tài nguyên: bộ nhớ: 942ac000-942affff
lá cờ cc
Bạn đã quét dmesg |grep -i bridge để tìm bất kỳ thông báo nào về việc sử dụng pci=nocrs như PCI: Sử dụng cửa sổ cầu nối máy chủ từ ACPI; nếu cần, hãy sử dụng "pci=nocrs" và báo lỗi? Bạn có thể gặp sự cố với quá nhiều bộ nhớ thẻ video và không đủ chỗ trong bộ nhớ hệ thống 4GB thấp hơn để sử dụng PCI (sự cố TOLUD). Bạn đã cài đặt trình điều khiển Nvidia trước khi thử cài đặt CUDA chưa? Bạn có phần cứng nào và bao nhiêu bộ nhớ?
lá cờ cc
Vui lòng thêm thông tin vào bài đăng gốc của bạn để bạn có thể sử dụng thẻ mã và nhận định dạng hợp lý để dễ đọc. Có phải các thông báo pci đã từng chỉ định thành công BAR6 (chẳng hạn như có thể tại [mem 0xf1080000-0xf10fffff pref] giống như hệ thống của tôi)?
TonyKutunio avatar
lá cờ us
Tôi thực sự không biết điều đó có nghĩa là gì: "Các thông báo pci đã từng chỉ định thành công BAR6 chưa (chẳng hạn như có thể tại [mem 0xf1080000-0xf10fffff pref] giống như hệ thống của tôi)"
lá cờ cc
Một trong những nhận xét của bạn gặp lỗi: "...không thể yêu cầu BAR 6 [mem 0xfff80000-0xffffffff pref]: không có cửa sổ cầu nối tương thích", nhưng tôi không thấy bất kỳ thông báo nào sau này về BAR 6 trong nội dung bạn đã đăng. Hãy thử dmesg |grep BAR và xem liệu tất cả các BAR cuối cùng có được chỉ định hay không.
TonyKutunio avatar
lá cờ us
Ồ vâng, tôi thấy nó ... đầu ra dmesg |grep BAR cho biết: BAR 6: không có khoảng trống cho [kích thước mem 0x00080000 pref] BAR 6: không thể gán [kích thước bộ nhớ 0x00080000 pref]
lá cờ cc
Đây là một giải pháp khả thi: https://www.linuxquestions.org/questions/linux-kernel-70/kernel-fails-to-assign-memory-to-pcie-device-4175487043/
TonyKutunio avatar
lá cờ us
vì một số lý do nó nói: bash: /sys/bus/pci/devices/0000:00:01.1/remove: Không có tệp hoặc thư mục như vậy bash: /sys/bus/pci/rescan: Quyền bị từ chối
TonyKutunio avatar
lá cờ us
Đó có phải là cách họ thực hiện lệnh đó "sudo echo 1 > /sys/bus/pci/devices/0000\:00\:1c.5/remove " Nếu đầu ra lspci là: 00:1c.5 Cầu nối PCI: Cổng gốc PCI Express Sunrise Point-LP của Intel Corporation #6 (rev f1)
lá cờ cc
Vâng, lệnh đó có vẻ ổn. Nó có thể là mô hình của bạn vừa hết bộ nhớ? Tôi đã thiết lập trình điều khiển Nvidia mà tôi muốn (thường là trình điều khiển mới nhất từ ​​kho lưu trữ tiêu chuẩn) và cài đặt CUDA từ tệp .run bỏ qua việc cung cấp trình điều khiển Nvidia. Tránh được nhiều sự cố khi xảy ra cập nhật hệ thống/video.
TonyKutunio avatar
lá cờ us
có vẻ như tôi không gặp sự cố màn hình đen sau các lệnh trên ... Nhưng vẫn gặp lỗi đó: RuntimeError: CUDA out of memory.. Không biết có phải model hết bộ nhớ thật không
TonyKutunio avatar
lá cờ us
nghĩ rằng màn hình đen và hết bộ nhớ có liên quan

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.