Điểm:1

Tại sao GPU không thể giao tiếp trong máy chủ đa GPU?

lá cờ us

Đây là máy chủ Dell PowerEdge r750xa với 4 GPU Nvidia A40, dành cho các ứng dụng AI. Mặc dù các GPU hoạt động riêng lẻ tốt, nhưng các công việc đào tạo đa GPU hoặc bất kỳ khối lượng công việc tính toán đa GPU nào đều không thành công khi ít nhất 2 GPU phải trao đổi thông tin, bao gồm cả đơn giảnIPCliên hợpGradientMultiDeviceCG mẫu CUDA (mẫu đầu tiên hiển thị kết quả không khớp, mẫu thứ hai chỉ bị treo).

Tôi đã thấy các cuộc thảo luận trực tuyến (1, 2, 3), tuyên bố rằng phải tắt một thứ gọi là IOMMU. Tôi đã thử thiết lập iommu=tắtintel_iommu=tắt Cờ nhân Linux nhưng nó không giúp được gì. Tôi đã kiểm tra cài đặt BIOS, nhưng không có tùy chọn nào để tắt IOMMU trong BIOS.

Điểm:1
lá cờ us

Mặc dù không có cài đặt "IOMMU off" rõ ràng trong hương vị BIOS này, vấn đề vẫn nằm ở cấu hình BIOS.

Trong BIOS, đi đến "Thiết bị tích hợp" và thay đổi "Cơ sở I/O được ánh xạ bộ nhớ" cài đặt từ "56TB" mặc định thành "12TB". Điều này sẽ giải quyết vấn đề. Không cần thêm bất kỳ tham số kernel nào.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.