Tôi đã gặp sự cố định tuyến (như bây giờ đối với tôi). Tôi không thể truy cập một trong các nút công nhân (máy chủ) từ nút chính (máy chủ) của mình nữa. AFAIK, nó không liên quan gì đến Kubernetes, nó dẫn đến sự cố mạng Linux thuần túy.
Vì sự cố chỉ xảy ra với một IP nên tôi đã khắc phục sự cố iptables, bật TRACE và nhận ra rằng gói thực sự đi qua chủ (eth0), truy cập iptables (vượt qua: raw > mangle >nat) nhưng khi nó phải được chuyển từ nat sang bộ lọc, nó chỉ biến mất.
Theo tôi hiểu, đó là điểm mà kernel phải đưa ra quyết định định tuyến.Đã kiểm tra định tuyến và thấy rằng nó không hoạt động chỉ với một IP đó (tất cả các IP khác từ cùng một phân đoạn IP đều hoạt động tốt)!?
Vì tôi đang sử dụng nhà cung cấp đám mây và không thể khắc phục sự cố kết nối mạng nên tôi đã thử cài đặt lại hệ điều hành (cùng Ubuntu 20.04) của nút chính (máy chủ). Phát hiện ra rằng với cài đặt lại hệ điều hành mới, sự cố không xuất hiện, do đó, sự cố cấu hình phải nằm trong máy chủ Linux chính của tôi (tôi đã hoàn nguyên ảnh chụp nhanh biểu mẫu máy chủ).
root@vmi57XXXX:~# tuyến đường
Bảng định tuyến IP hạt nhân
Cổng đích Genmask Flag Metric Ref Sử dụng Iface
mặc định gw.provider.net 0.0.0.0 UG 0 0 0 eth0
10.244.0.0 0.0.0.0 255.255.255.0 U 0 0 0 cni0
10.244.1.0 10.244.1.0 255.255.255.0 UG 0 0 0 vải nỉ.1
172.17.0.0 0.0.0.0 255.255.0.0 U 0 0 0 docker0
root@vmi57XXXX:~# tuyến đường ip nhận xx.xx.xx.96
local xx.xx.xx.96 dev lo src xx.xx.xx.96 uid 0
bộ đệm <cục bộ>
root@vmi57XXXX:~# tuyến đường ip nhận xx.xx.xx.95
xx.xx.xx.95 qua xx.xx.xx.1 dev eth0 src xx.xx.xx.95 uid 0
bộ đệm
root@vmi57XXXX:~# tuyến đường ip nhận xx.xx.xx.97
xx.xx.xx.97 qua xx.xx.xx.1 dev eth0 src xx.xx.xx.97 uid 0
bộ đệm
root@vmi57XXXX:~# arp -v
Địa chỉ HWtype HWaddress Flags Mask Iface
10.244.0.60 ête 8a:94:de:43:b6:0f C cni0
10.244.0.63 ête 1e:76:6a:60:27:f3 C cni0
10.244.0.62 ête 36:0b:19:5e:57:87 C cni0
gw.provider.net ether 00:c0:1d:c0:ff:ee C eth0
10.244.0.64 ether 82:03:61:c5:4d:fb C cni0
10.244.0.50 (không đầy đủ) cni0
10.244.1.0 ether 52:3d:a5:f4:c2:2c CM flannel.1
10.244.0.61 ête 56:19:98:79:a1:3a C cni0
Mục nhập: 8 Bỏ qua: 0 Tìm thấy: 8
root@vmi57XXXX:~# ip netconf show dev eth0
inet eth0 chuyển tiếp trên rp_filter tắt mc_forwarding tắt proxy_neigh tắt
bỏ qua_routes_with_linkdown tắt
tắt chuyển tiếp inet6 eth0 mc_forwarding tắt proxy_neigh tắt
bỏ qua_routes_with_linkdown tắt
Bất kỳ manh mối nào về những gì đang diễn ra ở đó đều được hoan nghênh!!!
Cảm ơn
CHỈNH SỬA: Sau khi giải quyết vấn đề, điều đáng nói là hành vi này đã xảy ra với Kubernetes 1.21.2-00 và flannel là CNI.
Tôi đã nâng cấp vài tuần trước và đây là lần khởi động lại đầu tiên của một nút công nhân sau khi nâng cấp.