Chúng tôi đã thiết lập một máy tính AMD Ryzen với Ubuntu 21.10 và cắm 6 máy Akitio Duo, mỗi máy có 2 thẻ NVIDIA 4GB, cũng như thẻ thứ 13 trực tiếp trên khe cắm PCIe là thẻ NVIDIA 16 GB (RTX A4000).
Chúng tôi có giàn khoan này chạy các luồng 16x của Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) và phần lớn, nó có thể chạy mà không gặp sự cố trong một thời gian.
Nhưng thỉnh thoảng, có thể trung bình cứ sau 24 giờ hoặc lâu hơn, máy tính bị khóa hoàn toàn. Nếu chúng tôi chỉ có 4x Alphafold2 chạy trên thẻ 16 GB, máy tính sẽ ổn định trong nhiều tuần, do đó, vấn đề dường như là do các công việc trên thẻ Akitio eGPU.
Có nơi nào có thể cho chúng tôi biết lý do tại sao nó bị sập (máy tính đang bật nhưng hoàn toàn không phản hồi, chỉ có nút nguồn vật lý khởi động lại mới thực hiện được thủ thuật)?
Nhìn /var/log/kern.log
dường như không hiển thị bất cứ điều gì cho thấy vấn đề.
CHỈNH SỬA:
Đang chạy dmidecode
khi chỉ cắm thẻ 16GB cộng với 2 Akitios, sẽ đưa ra thông tin sau:
# dmidecode --type 9 | egrep "Cách sử dụng|Loại|Chỉ định"
Chỉ định: PCIEX16_1
Loại: x16 PCI Express
Sử dụng hiện tại: Có sẵn
Chỉ định: PCIEX16_2
Loại: x8 PCI Express
Sử dụng hiện tại: Đang sử dụng
Chỉ định: PCIEX1_1
Loại: x1 PCI Express
Sử dụng hiện tại: Có sẵn
cảm ơn @matigo về đề xuất xem syslog.Trong sự cố mới nhất, nó hiển thị bit phía trên bit '@^', sau đó khởi động lại cứng vào lúc 10:02.