chỉnh sửa: Trên CentOS 8.5, đã thử với trình điều khiển Mellanox 4.9-4.1.7.0 (cũ) và 5.5-1.0.3.2:
Tôi không thể làm cho bộ điều hợp Infiniband của mình hoạt động.
đầu ra của ibstat
nói rằng nó đã ngừng hoạt động:
CA 'mlx5_0'
Loại CA: MT4123
Số cổng: 1
Phiên bản phần sụn: 20.31.1014
Phiên bản phần cứng: 0
GUID nút: 0xb8cef60300a7fbbc
GUID hình ảnh hệ thống: 0xb8cef60300a7fbbc
Cổng 1:
Trạng thái: Xuống
Trạng thái vật lý: Đã tắt
Tỷ lệ 10
Nắp đế: 65535
LMC: 0
Nắp SM: 0
Mặt nạ khả năng: 0x2651e848
GUID cổng: 0xb8cef60300a7fbbc
Lớp liên kết: InfiniBand
Và mlxlink -d mlx5_0
đầu ra:
thông tin hoạt động
----------------
Trạng thái: Vô hiệu hóa
Trạng thái vật lý: ETH_AN_FSM_ENABLE
Tốc độ : N/A
Chiều rộng: Không áp dụng
FEC : N/A
Chế độ lặp lại: N/A
Đàm phán tự động : BẬT
Thông tin được hỗ trợ
--------------
Tốc độ liên kết đã bật: 0x00000075 (HDR,EDR,FDR,QDR,SDR)
Tốc độ cáp được hỗ trợ: 0x00000007 (QDR,DDR,SDR)
Thông tin khắc phục sự cố
--------------------
Mã trạng thái: 1036
Mã nhóm : MNG FW
Khuyến nghị: Đã kết nối sai loại mô-đun. Thay đổi sang loại mô-đun khác.
Vì vậy, ở đây tôi có một thông tin khắc phục sự cố, tôi chỉ không hiểu nó. Tôi khá chắc chắn rằng cáp đã được kết nối, có thể do một số điểm không tương thích giữa Connect-X 3 (nơi chạy dịch vụ opensm) và bộ điều hợp Connect-X 6 không?
chỉnh sửa:
Các bộ điều hợp được kết nối bằng công tắc Mellanox SX6012.
đầu ra của ibcheckstate -v
được đưa ra sau đây. Cổng 1 là nút có opensm đang chạy, thiếu cổng của nút mới với bộ điều hợp ConnectX-6.
# Kiểm tra Switch: nodeguid 0x248a070300ccc140
Nắp kiểm tra nút 2: OK
Nắp kiểm tra cổng 2 cổng 1: OK
Nắp kiểm tra cổng 2 cổng 2: OK
Nắp kiểm tra cổng 2 cổng 3: OK
Nắp kiểm tra cổng 2 cổng 4: OK
Nắp kiểm tra cổng 2 cổng 5: OK
# Kiểm tra Ca: nodeguid 0x0cc47affff5fb364
Nắp kiểm tra nút 4: OK
Nắp kiểm tra cổng 4 cổng 1: OK
# Kiểm tra Ca: nodeguid 0x0cc47affff5fb8e4
Nút kiểm tra nắp 6: OK
Nắp kiểm tra cổng 6 cổng 1: OK
# Kiểm tra Ca: nodeguid 0x0cc47affff5fb4c4
Nắp kiểm tra nút 5: OK
Nắp kiểm tra cổng 5 cổng 1: OK
# Kiểm tra Ca: nodeguid 0x0cc47affff5fb89c
Nút kiểm tra nắp 3: OK
Nắp kiểm tra cổng 3 cổng 1: OK
# Kiểm tra Ca: nodeguid 0x248a070300f97f50
Nắp kiểm tra nút 1: OK
Nắp kiểm tra cổng 1 cổng 1: OK
*** CẢNH BÁO ***: lệnh này không được dùng nữa
## Tóm tắt: Đã kiểm tra 6 nút, tìm thấy 0 nút xấu
## Đã kiểm tra 10 cổng, tìm thấy 0 cổng có trạng thái xấu
Cáp đã hoạt động ít nhất với bộ điều hợp ConnectX-4.