Điểm:0

Bộ điều hợp Infiniband bị hỏng

lá cờ cd

chỉnh sửa: Trên CentOS 8.5, đã thử với trình điều khiển Mellanox 4.9-4.1.7.0 (cũ) và 5.5-1.0.3.2:

Tôi không thể làm cho bộ điều hợp Infiniband của mình hoạt động. đầu ra của ibstat nói rằng nó đã ngừng hoạt động:

    CA 'mlx5_0'
        Loại CA: MT4123
        Số cổng: 1
        Phiên bản phần sụn: 20.31.1014
        Phiên bản phần cứng: 0
        GUID nút: 0xb8cef60300a7fbbc
        GUID hình ảnh hệ thống: 0xb8cef60300a7fbbc
        Cổng 1:
            Trạng thái: Xuống
            Trạng thái vật lý: Đã tắt
            Tỷ lệ 10
            Nắp đế: 65535
            LMC: 0
            Nắp SM: 0
            Mặt nạ khả năng: 0x2651e848
            GUID cổng: 0xb8cef60300a7fbbc
            Lớp liên kết: InfiniBand

mlxlink -d mlx5_0 đầu ra:

thông tin hoạt động
----------------
Trạng thái: Vô hiệu hóa
Trạng thái vật lý: ETH_AN_FSM_ENABLE
Tốc độ : N/A
Chiều rộng: Không áp dụng
FEC : N/A
Chế độ lặp lại: N/A
Đàm phán tự động : BẬT

Thông tin được hỗ trợ
--------------
Tốc độ liên kết đã bật: 0x00000075 (HDR,EDR,FDR,QDR,SDR)
Tốc độ cáp được hỗ trợ: 0x00000007 (QDR,DDR,SDR)

Thông tin khắc phục sự cố
--------------------
Mã trạng thái: 1036
Mã nhóm : MNG FW
Khuyến nghị: Đã kết nối sai loại mô-đun. Thay đổi sang loại mô-đun khác.

Vì vậy, ở đây tôi có một thông tin khắc phục sự cố, tôi chỉ không hiểu nó. Tôi khá chắc chắn rằng cáp đã được kết nối, có thể do một số điểm không tương thích giữa Connect-X 3 (nơi chạy dịch vụ opensm) và bộ điều hợp Connect-X 6 không?

chỉnh sửa:

Các bộ điều hợp được kết nối bằng công tắc Mellanox SX6012.

đầu ra của ibcheckstate -v được đưa ra sau đây. Cổng 1 là nút có opensm đang chạy, thiếu cổng của nút mới với bộ điều hợp ConnectX-6.

# Kiểm tra Switch: nodeguid 0x248a070300ccc140
Nắp kiểm tra nút 2: OK 
Nắp kiểm tra cổng 2 cổng 1: OK 
Nắp kiểm tra cổng 2 cổng 2: OK 
Nắp kiểm tra cổng 2 cổng 3: OK 
Nắp kiểm tra cổng 2 cổng 4: OK 
Nắp kiểm tra cổng 2 cổng 5: OK 

# Kiểm tra Ca: nodeguid 0x0cc47affff5fb364
Nắp kiểm tra nút 4: OK 
Nắp kiểm tra cổng 4 cổng 1: OK 

# Kiểm tra Ca: nodeguid 0x0cc47affff5fb8e4
Nút kiểm tra nắp 6: OK 
Nắp kiểm tra cổng 6 cổng 1: OK 

# Kiểm tra Ca: nodeguid 0x0cc47affff5fb4c4
Nắp kiểm tra nút 5: OK 
Nắp kiểm tra cổng 5 cổng 1: OK 

# Kiểm tra Ca: nodeguid 0x0cc47affff5fb89c
Nút kiểm tra nắp 3: OK 
Nắp kiểm tra cổng 3 cổng 1: OK 

# Kiểm tra Ca: nodeguid 0x248a070300f97f50
Nắp kiểm tra nút 1: OK 
Nắp kiểm tra cổng 1 cổng 1: OK 

*** CẢNH BÁO ***: lệnh này không được dùng nữa

## Tóm tắt: Đã kiểm tra 6 nút, tìm thấy 0 nút xấu
## Đã kiểm tra 10 cổng, tìm thấy 0 cổng có trạng thái xấu

Cáp đã hoạt động ít nhất với bộ điều hợp ConnectX-4.

lá cờ br
Điều này đã bao giờ làm việc? nếu vậy những gì đã thay đổi? nếu nó được kết nối với một công tắc IB thì trạng thái trên cổng đó là gì? Ngoài ra, bạn đang làm gì với thông báo 'loại mô-đun được kết nối sai' đó?
Holger avatar
lá cờ cd
Cho đến nay nó vẫn chưa hoạt động, bộ điều hợp Connect-X 6 thuộc về một nút mới mà tôi muốn cài đặt. Tôi đã thêm đầu ra của ibcheckstate -v vào câu hỏi, bộ điều hợp mới bị thiếu hoàn toàn. Thông báo 'loại mô-đun được kết nối sai' là lý do tại sao tôi yêu cầu sự không tương thích.
Holger avatar
lá cờ cd
Như tôi đã nói thêm, cáp đã hoạt động với bộ điều hợp ConnectX-4.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.