Điểm:0

Ubuntu 20.04 phá vỡ trình điều khiển Nvidia thường xuyên

lá cờ jp

Tôi đang sử dụng Ubuntu 20.04.3 LTS trên hai máy (máy tính cá nhân của tôi và một máy chủ nhỏ ở cơ quan), cả hai đều được trang bị thẻ Nvidia. Máy cá nhân có RTX2080 Super trong khi máy chủ chạy với hai RTX3090.

Chúng tôi đang thực hiện nghiên cứu deep learning tại nơi làm việc, vì vậy tôi chủ yếu sử dụng máy để chạy TensorFlow hoặc các công cụ liên quan sử dụng GPU.

Tôi là người thiết lập cả hai máy từ đầu, vì vậy tôi đã cài đặt Ubuntu 20.04.3 LTS mới trên cả hai máy, cập nhật, nâng cấp, cài đặt các công cụ cơ bản, cài đặt trình điều khiển Nvidia + CUDA. Đối với điều này, trên cả hai máy, tôi đã sử dụng trình cài đặt runfile từ trang chính thức của Nvidia đây cho CUDA chứa trình điều khiển Nvidia. Trước khi chạy trình cài đặt này, tôi luôn đưa trình điều khiển Noveau vào danh sách đen như được hiển thị đây Ví dụ. Tôi không coi mình là một quản trị viên có nhiều kinh nghiệm cho những hệ thống như vậy vì tôi xuất thân từ nền tảng nghiên cứu, tôi đã học cách sử dụng và hiểu Linux trong những tháng qua và cho đến nay, mọi thứ chúng tôi cần cho nhóm nhỏ của mình đều hoạt động như một cơ duyên. Ngoại trừ một vấn đề nhỏ mà tôi gặp phải trên cả máy cá nhân và máy chủ nghiên cứu. Có vẻ như cài đặt trình điều khiển của tôi thường xuyên bị hỏng mà tôi không thể hiểu chính xác tại sao và khi nào.

Tại sao đề cập đến cả hai máy? Bởi vì tôi nghĩ đó là cùng một vấn đề diễn đạt theo hai cách khác nhau: (1) Máy cá nhân của tôi là máy tôi cũng sử dụng cho công việc và mã hóa. Nó có một màn hình được đính kèm và trong khoảng thời gian đều đặn (tôi sẽ nói cứ sau 3-5 tuần), nó không khởi động vào màn hình đăng nhập mà thay vào đó hiển thị cho tôi một dòng có nội dung:

/dev/nvme0n1p1: sạch sẽ

Tôi không nhớ dòng chính xác, nhưng nó chắc chắn chứa vị trí ổ SSD của tôi và hoạt động "sạch sẽ". Và sau đó không có gì xảy ra từ thời điểm này. Tôi thường giải quyết vấn đề bằng cách đăng nhập qua Ctrl+Alt+F2 và chỉ cần chạy lại trình cài đặt cuda/trình điều khiển với:

Sudo sh cuda_11.5.0_495.29.05_linux.run

và sau đó khởi động lại. Sau khi khởi động lại, màn hình đăng nhập của tôi trở lại và mọi thứ hoạt động trở lại.Tôi đang làm điều này khoảng một năm nay trên máy cá nhân của mình và tôi không bao giờ bận tâm nhiều đến việc tìm ra vấn đề ở đâu, vì sau khi cài đặt lại CUDA hoạt động, TF-GPU hoạt động, giao diện người dùng của tôi hoạt động và tbh. đó là tất cả tôi cần.

(2) Bây giờ đến máy chủ không hiển thị. Nó đang chạy không ngừng mà không cần khởi động lại. Nhưng trong khoảng thời gian đều đặn (cùng 3-5 tuần), mọi thứ liên quan đến GPU sẽ ngừng hoạt động. Các tập lệnh Python sử dụng TensorFlow-GPU sẽ không tìm thấy GPU nữa. nvidia-smi hiển thị thông báo:

NVIDIA-SMI đã bị lỗi vì nó không thể giao tiếp với trình điều khiển NVIDIA. Đảm bảo rằng trình điều khiển NVIDIA mới nhất đã được cài đặt và chạy

Một ngày nào đó, mọi thứ ở đó và hoạt động mà không cần thao tác thủ công bất kỳ thứ gì trong hệ thống (như cập nhật, v.v.), nó sẽ ngừng hoạt động và hiển thị thông báo này. Như trong trường hợp máy cá nhân của tôi, chỉ cần cài đặt lại trình điều khiển sẽ khắc phục sự cố. Nhưng vì đó là về một máy chủ mà tôi chịu trách nhiệm và có nhiều người sử dụng, tôi muốn đảm bảo có giải pháp cho nó và hiểu vấn đề một cách chi tiết để tránh nó trong tương lai.

tôi đã xem xét /var/log/dpkg.log để xem liệu tôi có thể tìm thấy bất kỳ thông báo nào về trình điều khiển được cập nhật tự động hay không. Tôi cũng đã xem nhật ký Xorg, khởi động và hệ thống, nhưng tôi thiếu kiến ​​thức để tìm gợi ý về những gì không ổn trong các nhật ký này. Một điều tôi phát hiện ra là, việc chạy: dpkg --list | grep nvidia thực sự không trả về gì cả trên máy chủ.nvidia-smi sẽ in thông báo được đề cập ở trên. Thật ngạc nhiên, nvcc --version vẫn hoạt động và cho:

nvcc: Trình điều khiển trình biên dịch NVIDIA (R) Cuda
Bản quyền (c) 2005-2021 Tập đoàn NVIDIA
Được xây dựng vào Mon_Sep_13_19:13:29_PDT_2021
Công cụ biên dịch Cuda, phát hành 11.5, V11.5.50
Bản dựng cuda_11.5.r11.5/compiler.30411180_0

vì vậy có vẻ như CUDA vẫn còn đó nhưng trình điều khiển nvidia thì không.

Cả trên máy cá nhân và máy chủ, tôi cho rằng đó là cùng một vấn đề.Khi cố gắng chạy nvidia-smi trong thiết bị đầu cuối trong khi máy cá nhân của tôi bị hỏng, nó sẽ hiển thị cho tôi thông báo lỗi tương tự và tôi chắc chắn rằng nếu tôi đính kèm màn hình vào máy chủ, nó sẽ không hiển thị thông tin đăng nhập Ubuntu cho tôi màn hình cũng vậy.

Hiện tại, tôi không chạy lại cài đặt trên máy chủ vì tôi muốn để nó ở trạng thái "bị hỏng", trong trường hợp bạn có một số lời khuyên về nơi tìm kiếm sự cố. Trong mọi trường hợp, cảm ơn trước sự giúp đỡ của bạn!

ChanganAuto avatar
lá cờ us
Bất cứ khi nào bạn cài đặt trình điều khiển bằng cách sử dụng các tệp nhị phân của Nvidia, tức là không phải từ kho lưu trữ như bạn nên làm, thì đó chính xác là những gì sẽ xảy ra. Bạn cần cài đặt lại mỗi khi có bản cập nhật kernel.
Hendrik avatar
lá cờ jp
Nghe có vẻ hợp lý! Điều này có nghĩa là `Sudo apt install nvidia-driver-470` rất có thể sẽ thực hiện công việc? Tại sao trình cài đặt CUDA mặc định đi kèm với trình điều khiển? Tôi vẫn phải thực hiện danh sách đen của nouveau trong trường hợp này chứ?
ChanganAuto avatar
lá cờ us
Vâng, nó nên làm công việc. Và bạn cũng nên cài đặt Cuda từ repos. Và không, không cần phải đưa vào danh sách đen bất cứ thứ gì, quá trình cài đặt sẽ đảm nhiệm việc đó.
Hendrik avatar
lá cờ jp
Cảm ơn rất nhiều cho câu trả lời dễ dàng và nhanh chóng của bạn!

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.