Điểm:0

Máy tính có GPU được kết nối 12+1 Thunderbolt 3 bị lỗi khi sử dụng eGPU

lá cờ de

Chúng tôi đã thiết lập một máy tính AMD Ryzen với Ubuntu 21.10 và cắm 6 máy Akitio Duo, mỗi máy có 2 thẻ NVIDIA 4GB thông qua 2 cổng Thunderbolt, cũng như thẻ thứ 13 trực tiếp trên khe cắm PCIe là thẻ NVIDIA 16 GB (RTX A4000 , có thể chạy song song 4 công việc).

Chúng tôi có giàn khoan này chạy 12+4 luồng Alphafold2 (https://github.com/deepmind/alphafold#running-alphafold) và phần lớn, nó có thể chạy mà không gặp sự cố trong một thời gian.

Nhưng thỉnh thoảng, có thể trung bình cứ sau 24 giờ hoặc lâu hơn, máy tính bị khóa hoàn toàn. Nếu chúng tôi chỉ có 4x Alphafold2 chạy trên thẻ 16 GB, thì máy tính sẽ ổn định trong nhiều tuần, do đó, vấn đề dường như là do các công việc trên thẻ Akitio eGPU.

Có bất kỳ nơi nào có thể cho chúng tôi biết lý do tại sao nó bị sập (máy tính đang bật nhưng hoàn toàn không phản hồi, chỉ khởi động lại bằng nút nguồn vật lý mới thực hiện được thủ thuật)?

Nhìn /var/log/kern.log dường như không hiển thị bất cứ điều gì cho thấy vấn đề.

Một khía cạnh mà chúng tôi đã đọc là có thể các làn PCIe bị quá tải và 16 luồng ngắt lẫn nhau khi có quá nhiều thiết bị PCIe được kết nối. Vì máy này không được sử dụng cho bất kỳ mục đích nào khác nên việc tắt các làn PCIe 'Âm thanh' hoặc 'USB 3.1' có giải quyết được sự cố không? Nếu vậy, làm thế nào?

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.