Tôi đang sử dụng Ubuntu 20.04.3 LTS trên hai máy (máy tính cá nhân của tôi và một máy chủ nhỏ ở cơ quan), cả hai đều được trang bị thẻ Nvidia. Máy cá nhân có RTX2080 Super trong khi máy chủ chạy với hai RTX3090.
Chúng tôi đang thực hiện nghiên cứu deep learning tại nơi làm việc, vì vậy tôi chủ yếu sử dụng máy để chạy TensorFlow hoặc các công cụ liên quan sử dụng GPU.
Tôi là người thiết lập cả hai máy từ đầu, vì vậy tôi đã cài đặt Ubuntu 20.04.3 LTS mới trên cả hai máy, cập nhật, nâng cấp, cài đặt các công cụ cơ bản, cài đặt trình điều khiển Nvidia + CUDA. Đối với điều này, trên cả hai máy, tôi đã sử dụng trình cài đặt runfile từ trang chính thức của Nvidia đây cho CUDA chứa trình điều khiển Nvidia. Trước khi chạy trình cài đặt này, tôi luôn đưa trình điều khiển Noveau vào danh sách đen như được hiển thị đây Ví dụ.
Tôi không coi mình là một quản trị viên có nhiều kinh nghiệm cho những hệ thống như vậy vì tôi xuất thân từ nền tảng nghiên cứu, tôi đã học cách sử dụng và hiểu Linux trong những tháng qua và cho đến nay, mọi thứ chúng tôi cần cho nhóm nhỏ của mình đều hoạt động như một cơ duyên. Ngoại trừ một vấn đề nhỏ mà tôi gặp phải trên cả máy cá nhân và máy chủ nghiên cứu. Có vẻ như cài đặt trình điều khiển của tôi thường xuyên bị hỏng mà tôi không thể hiểu chính xác tại sao và khi nào.
Tại sao đề cập đến cả hai máy? Bởi vì tôi nghĩ đó là cùng một vấn đề diễn đạt theo hai cách khác nhau:
(1) Máy cá nhân của tôi là máy tôi cũng sử dụng cho công việc và mã hóa. Nó có một màn hình được đính kèm và trong khoảng thời gian đều đặn (tôi sẽ nói cứ sau 3-5 tuần), nó không khởi động vào màn hình đăng nhập mà thay vào đó hiển thị cho tôi một dòng có nội dung:
/dev/nvme0n1p1: sạch sẽ
Tôi không nhớ dòng chính xác, nhưng nó chắc chắn chứa vị trí ổ SSD của tôi và hoạt động "sạch sẽ". Và sau đó không có gì xảy ra từ thời điểm này. Tôi thường giải quyết vấn đề bằng cách đăng nhập qua Ctrl+Alt+F2 và chỉ cần chạy lại trình cài đặt cuda/trình điều khiển với:
Sudo sh cuda_11.5.0_495.29.05_linux.run
và sau đó khởi động lại. Sau khi khởi động lại, màn hình đăng nhập của tôi trở lại và mọi thứ hoạt động trở lại.Tôi đang làm điều này khoảng một năm nay trên máy cá nhân của mình và tôi không bao giờ bận tâm nhiều đến việc tìm ra vấn đề ở đâu, vì sau khi cài đặt lại CUDA hoạt động, TF-GPU hoạt động, giao diện người dùng của tôi hoạt động và tbh. đó là tất cả tôi cần.
(2) Bây giờ đến máy chủ không hiển thị. Nó đang chạy không ngừng mà không cần khởi động lại. Nhưng trong khoảng thời gian đều đặn (cùng 3-5 tuần), mọi thứ liên quan đến GPU sẽ ngừng hoạt động. Các tập lệnh Python sử dụng TensorFlow-GPU sẽ không tìm thấy GPU nữa.
nvidia-smi
hiển thị thông báo:
NVIDIA-SMI đã bị lỗi vì nó không thể giao tiếp với trình điều khiển NVIDIA. Đảm bảo rằng trình điều khiển NVIDIA mới nhất đã được cài đặt và chạy
Một ngày nào đó, mọi thứ ở đó và hoạt động mà không cần thao tác thủ công bất kỳ thứ gì trong hệ thống (như cập nhật, v.v.), nó sẽ ngừng hoạt động và hiển thị thông báo này. Như trong trường hợp máy cá nhân của tôi, chỉ cần cài đặt lại trình điều khiển sẽ khắc phục sự cố. Nhưng vì đó là về một máy chủ mà tôi chịu trách nhiệm và có nhiều người sử dụng, tôi muốn đảm bảo có giải pháp cho nó và hiểu vấn đề một cách chi tiết để tránh nó trong tương lai.
tôi đã xem xét /var/log/dpkg.log
để xem liệu tôi có thể tìm thấy bất kỳ thông báo nào về trình điều khiển được cập nhật tự động hay không. Tôi cũng đã xem nhật ký Xorg, khởi động và hệ thống, nhưng tôi thiếu kiến thức để tìm gợi ý về những gì không ổn trong các nhật ký này. Một điều tôi phát hiện ra là, việc chạy:
dpkg --list | grep nvidia
thực sự không trả về gì cả trên máy chủ.nvidia-smi
sẽ in thông báo được đề cập ở trên.
Thật ngạc nhiên, nvcc --version
vẫn hoạt động và cho:
nvcc: Trình điều khiển trình biên dịch NVIDIA (R) Cuda
Bản quyền (c) 2005-2021 Tập đoàn NVIDIA
Được xây dựng vào Mon_Sep_13_19:13:29_PDT_2021
Công cụ biên dịch Cuda, phát hành 11.5, V11.5.50
Bản dựng cuda_11.5.r11.5/compiler.30411180_0
vì vậy có vẻ như CUDA vẫn còn đó nhưng trình điều khiển nvidia thì không.
Cả trên máy cá nhân và máy chủ, tôi cho rằng đó là cùng một vấn đề.Khi cố gắng chạy nvidia-smi trong thiết bị đầu cuối trong khi máy cá nhân của tôi bị hỏng, nó sẽ hiển thị cho tôi thông báo lỗi tương tự và tôi chắc chắn rằng nếu tôi đính kèm màn hình vào máy chủ, nó sẽ không hiển thị thông tin đăng nhập Ubuntu cho tôi màn hình cũng vậy.
Hiện tại, tôi không chạy lại cài đặt trên máy chủ vì tôi muốn để nó ở trạng thái "bị hỏng", trong trường hợp bạn có một số lời khuyên về nơi tìm kiếm sự cố.
Trong mọi trường hợp, cảm ơn trước sự giúp đỡ của bạn!