Điểm:1

Sự cố DNS trên nhóm các nút chỉ được ưu tiên trên GKE: điểm cuối của dịch vụ kube-dns giữ các nhóm bị lỗi

lá cờ br

Tôi có một cụm GKE k8s (k8s 1.22) bao gồm các nút được ưu tiên chỉ có, bao gồm các dịch vụ quan trọng như kube-dns. Đó là một cỗ máy dành cho nhà phát triển có thể chịu được vài phút hỏng mỗi ngày. Mỗi khi một nút lưu trữ nhóm kube-dns bị tắt, tôi gặp phải sự cố phân giải DNS vẫn tồn tại cho đến khi tôi xóa nhóm bị lỗi (trong 1.21, các nhóm vẫn ở trạng thái "Trạng thái: Không thành công"/"Lý do: Tắt máy" cho đến khi bị xóa thủ công) .

Mặc dù tôi mong đợi một số sự cố trên các nút được ưu tiên trong khi chúng đang được tái chế, nhưng tôi mong đợi điều này sẽ tự sửa chữa sau vài phút. Lý do cơ bản cho các sự cố dai dẳng dường như là do nhóm bị lỗi không bị xóa khỏi k8s Dịch vụ / điểm cuối. Đây là những gì tôi có thể thấy trong hệ thống:

Tình trạng của các nhóm thông qua kubectl -n kube-system get po -l k8s-app=kube-dns

TÊN TÌNH TRẠNG SẴN SÀNG KHỞI ĐỘNG LẠI TUỔI
kube-dns-697dc8fc8b-47rxd 4/4 Chấm dứt 0 43h
kube-dns-697dc8fc8b-mkfrp 4/4 Chạy 0 78m
kube-dns-697dc8fc8b-zfvn8 4/4 Chạy 0 19h

IP của nhóm bị lỗi là 192.168.144.2 - và nó vẫn được liệt kê là một trong những điểm cuối của dịch vụ:

kubectl -n kube-system description ep kube-dns mang lại điều này:

Tên: kube-dns
Không gian tên: hệ thống kube
Nhãn: addonmanager.kubernetes.io/mode=Reconcile
              k8s-app=kube-dns
              kubernetes.io/cluster-service=true
              kubernetes.io/name=KubeDNS
Chú thích: endpoints.kubernetes.io/last-change-trigger-time: 2022-02-21T10:15:54Z
Tập hợp con:
  Địa chỉ: 192.168.144.2,192.168.144.7,192.168.146.29
  NotReadyAddresses: <none>
  Cổng:
    Giao thức cổng tên
    ---- ---- --------
    dns-tcp 53 TCP
    dns 53 UDP

Sự kiện: <không có>

Tôi biết những người khác đã giải quyết những vấn đề này bằng cách Lập lịch kube-dns cho các nhóm khác, nhưng tôi muốn thực hiện việc tự phục hồi này thay vì lỗi nút vẫn có thể xảy ra trên các nút không được ưu tiên, chúng chỉ ít xảy ra hơn.

Những câu hỏi của tôi:

  • Tại sao nhóm bị lỗi vẫn được liệt kê là một trong những điểm cuối của dịch vụ, thậm chí hàng giờ sau khi nút ban đầu bị lỗi?
  • Tôi có thể làm gì để giảm thiểu vấn đề (ngoài việc thêm một số nút không phù hợp)?

Có vẻ như kube-dns trong triển khai mặc định trong GKE không có đầu dò sẵn sàng được đính kèm với dnsmasq (cổng 53), được nhắm mục tiêu trong dịch vụ kube-dns và điều đó có thể giải quyết vấn đề - nhưng tôi nghi ngờ nó không phải là ở đó vì một lý do mà tôi chưa hiểu.

CHỈNH SỬA: Rõ ràng điều này không không phải xảy ra trên 1.21.6-gke.1500 (kênh thông thường), nhưng xảy ra trên 1.22.6-gke.1500 (kênh nhanh). Tôi không có lời giải thích hay, nhưng mặc dù có một vài nhóm bị lỗi ngày hôm nay, dịch vụ kube-dns chỉ chứa những nhóm đang hoạt động.

lena_punkt avatar
lá cờ br
Cập nhật: Có vẻ như lỗi k8s sẽ được sửa trong 1.22 sau này: https://github.com/kubernetes/kubernetes/issues/108594 - Tôi sẽ cập nhật câu trả lời cho câu hỏi của riêng mình sau khi tôi đã xác minh điều này đang hoạt động. Florian, nếu bạn có thể đọc được điều này, nếu bạn đưa ra nhận xét hiện đã bị xóa của mình thành câu trả lời cho bài đăng này, tôi có thể chấp nhận nó như một câu trả lời sau này và bạn sẽ nhận được tín dụng.
Điểm:0
lá cờ np

Nó cũng bắt đầu xảy ra trên env của tôi (các nút được ưu tiên trên gke) và nó cũng xảy ra với tất cả các triển khai, nhưng kube-dns là điều quan trọng nhất. Tôi nghĩ nó có thể liên quan đến sửa đổiLịch sửGiới hạn tham số. Giá trị mặc định là 10, vì vậy các bản sao cũ có tổng số là 10 sẽ xuất hiện trong một khoảng thời gian. Tôi đã đặt nó thành 0 và mong đợi các nút được thay thế, hãy xem :)

Điểm:0
lá cờ lv

Các nút ưu tiên không được khuyến nghị để chạy các khối lượng công việc quan trọng như kube-dns (1) nên những tình huống như thế này là điều bình thường.

Bạn có thể thử giảm thiểu sự cố bằng cách đánh dấu nhóm là nghiêm trọng (2), sử dụng cấp phép tự động nút (3) hoặc PodDisruptionBudget (4).
Có thêm thông tin về chủ đề này trong tài liệu này (5).

Ngoài ra, một số đề xuất đã được đưa ra cho Google (6).

Nếu không cách nào trong số này giải quyết được sự cố của bạn, bạn có thể báo cáo vấn đề này qua Công cụ theo dõi vấn đề công khai.

lena_punkt avatar
lá cờ br
Đúng, việc thêm một nhóm nút với các nút tiêu chuẩn sẽ làm cho điều này ít xảy ra hơn - nhưng các nút đó vẫn có thể bị lỗi và tôi không thấy điều này không thể xảy ra theo cách tương tự như thế nào, ví dụ: khi một vùng khả dụng bị lỗi. Đó là lý do chính tại sao tôi hỏi ban đầu. Sự can thiệp của con người cũng cần thiết cho trường hợp đó, đúng không?
Sergiusz avatar
lá cờ lv
Tôi chưa bao giờ chứng kiến ​​tình huống như vậy và không tìm thấy bất kỳ báo cáo nào về hành vi như vậy trong trình theo dõi vấn đề. Tuy nhiên, nếu bạn gặp sự cố này trên một nút không được ưu tiên thì điều này sẽ được báo cáo cho Google.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.