Điểm:1

bộ cân bằng tải đánh dấu phiên bản thành viên nhóm mới "không lành mạnh" (ubuntu) sau khi nâng cấp dist

lá cờ tl

Tôi có một số máy ảo (hoạt động như một máy chủ web) đằng sau một nhóm ví dụ trên GCloud của tôi.

Như bảo trì thông thường, tôi đã cập nhật (nâng cấp apt dist) "vm-source-image" của tôi, đã tạo một cái mới mẫu và thêm nó vào nhóm của tôi.

Các thành viên mới sử dụng mẫu này không bao giờ nhận được bất kỳ yêu cầu làm việc thực tế nào từ bộ cân bằng tải và nó đang hoạt động nhưng thất nghiệp.

Bản vá tạm thời

Tôi chỉ cập nhật một phần (phần bảo mật) qua:

sudo nâng cấp không giám sát -d

Đây là danh sách các gói còn lại tạo ra sự cố:

# danh sách apt --upgradable

cloud-init/bionic-updates 21.3-1-g6803368d-0ubuntu1~18.04.4 tất cả [có thể nâng cấp từ: 21.2-3-g899bfaa9-0ubuntu2~18.04.1]
dnsmasq-base/bionic-updates 2.79-1ubuntu0.5 AMD64 [có thể nâng cấp từ: 2.79-1ubuntu0.4]
gce-compute-image-packages/bionic-updates 20210629.00-0ubuntu1~18.04.0 tất cả [có thể nâng cấp từ: 20201222.00-0ubuntu2~18.04.0]
google-compute-engine/bionic-updates 20210629.00-0ubuntu1~18.04.0 tất cả [có thể nâng cấp từ: 20201222.00-0ubuntu2~18.04.0]
google-compute-engine-oslogin/bionic-updates 20210728.00-0ubuntu1~18.04.0 AMD64 [có thể nâng cấp từ: 20210429.00-0ubuntu1~18.04.0]
google-guest-agent/bionic-updates 20210629.00-0ubuntu1~18.04.1 AMD64 [có thể nâng cấp từ: 20210414.00-0ubuntu1~18.04.0]
libgnutls30/bionic-updates 3.5.18-1ubuntu1.5 AMD64 [có thể nâng cấp từ: 3.5.18-1ubuntu1.4]
libnetplan0/bionic-updates 0.99-0ubuntu3~18.04.5 AMD64 [có thể nâng cấp từ: 0.99-0ubuntu3~18.04.4]
libpcre2-8-0/bionic 10.39-1+ubuntu18.04.1+deb.sury.org+1 amd64 [có thể nâng cấp từ: 10.36-2+ubuntu18.04.1+deb.sury.org+2]
netplan.io/bionic-updates 0.99-0ubuntu3~18.04.5 AMD64 [có thể nâng cấp từ: 0.99-0ubuntu3~18.04.4]
nplan/bionic-updates 0.99-0ubuntu3~18.04.5 tất cả [có thể nâng cấp từ: 0.99-0ubuntu3~18.04.4]
snapd/bionic-updates 2.51.1+18.04 AMD64 [có thể nâng cấp từ: 2.49.2+18.04]
ubuntu-advantage-tools/bionic-updates 27.3~18.04.1 AMD64 [có thể nâng cấp từ: 27.2.2~18.04.1]

MỘT GIẢI PHÁP THỰC SỰ

Vì tôi không có gói "tùy chỉnh" trên máy và nguồn gốc của sự cố này xuất phát từ bản cập nhật hệ thống nên tôi không thấy giải pháp nào ngoại trừ chỉ ra sự cố bằng bài đăng này.

Tất nhiên, tôi đang theo dõi các bản cập nhật mới với hy vọng rằng phiên bản mới của gói này sẽ giải quyết được sự cố, nhưng có thể không có lựa chọn nào tốt hơn?

Thêm thông tin

  • Nhóm này là phần phụ trợ của "bộ cân bằng tải TCP nội bộ".
  • Địa chỉ IP giao diện người dùng của bộ cân bằng tải là 10.0.0.116
  • Địa chỉ IP thành viên cũ (và đang hoạt động) là 10.0.0.48 (có thể xem các bản ghi)
  • Địa chỉ IP thành viên mới (và thất nghiệp) là 10.0.0.54 (có thể xem các bản ghi)
  • Bộ cân bằng tải có một kiểm tra tình trạng HTTP đơn giản được gọi là HTTPHC1.
  • Nhóm phiên bản có một kiểm tra tình trạng HTTP đơn giản khác được gọi là HTTPHC2.

So sánh nhật ký truy cập của thành viên cũ (và đang hoạt động) với thành viên mới:

Nhật ký của một thành viên VM cũ

35.191.1.148 "/" - - - [04/Nov/2021:10:34:59 +0000] 10.0.0.48 "GET /?id=HTTPHC2 HTTP/1.1" 200 612 "-" "GoogleHC/1.0"
35.191.1.144 "/" ​​- - - [04/Nov/2021:10:35:00 +0000] 10.0.0.48 "GET /?id=HTTPHC2 HTTP/1.1" 200 612 "-" "GoogleHC/1.0"
35.191.1.154 "/" ​​- - - [04/Nov/2021:10:35:00 +0000] 10.0.0.48 "GET /?id=HTTPHC2 HTTP/1.1" 200 612 "-" "GoogleHC/1.0"
35.191.1.147 "/" - - - [04/Nov/2021:10:35:01 +0000] 10.0.0.48 "GET /?id=HTTPHC1 HTTP/1.1" 200 612 "-" "GoogleHC/1.0"
35.191.1.145 "/" - - - [04/Nov/2021:10:35:01 +0000] 10.0.0.48 "GET /?id=HTTPHC1 HTTP/1.1" 200 612 "-" "GoogleHC/1.0"
35.191.1.151 "/" - - - [04/Nov/2021:10:35:02 +0000] 10.0.0.48 "GET /?id=HTTPHC1 HTTP/1.1" 200 612 "-" "GoogleHC/1.0"
35.191.1.153 "/" - - - [04/Nov/2021:10:35:02 +0000] 10.0.0.48 "GET /?id=HTTPHC1 HTTP/1.1" 200 612 "-" "GoogleHC/1.0"

Nhật ký của một thành viên VM mới

35.191.1.152 "/" - - - [04/Nov/2021:10:31:01 +0000] 10.0.0.54 "GET /?id=HTTPHC2 HTTP/1.1" 200 612 "-" "GoogleHC/1.0"
35.191.1.154 "/" ​​- - - [04/Nov/2021:10:31:02 +0000] 10.0.0.54 "GET /?id=HTTPHC2 HTTP/1.1" 200 612 "-" "GoogleHC/1.0"
35.191.1.148 "/" - - - [04/Nov/2021:10:31:02 +0000] 10.0.0.54 "GET /?id=HTTPHC2 HTTP/1.1" 200 612 "-" "GoogleHC/1.0"

Sự khác biệt cho thấy sự thiếu sót của các bản ghi của HTTPHC1.

Vì vậy, cái mới không trả lời kiểm tra sức khỏe của bộ cân bằng tải (HTTPHC1) và không nhận được yêu cầu và đó là vấn đề.

trục trặc khác Máy mới cũng không thể truy cập được bằng browser-window-SSH nhập mô tả hình ảnh ở đây

THÊM tcpdump

Ở giữa HTTPHC1 thành viên kiểm tra sức khỏe và thất nghiệp:

# tcpdump -n máy chủ 35.191.1.151
tcpdump: đầu ra dài dòng bị chặn, sử dụng -v hoặc -vv để giải mã giao thức đầy đủ
nghe trên ens4, loại liên kết EN10MB (Ethernet), kích thước chụp 262144 byte
11:30:35.109469 IP 35.191.1.151.61838 > 10.0.0.116.80: Flags [S], win 65535, tùy chọn [mss 1420,sackOK,TS ecr 0,nop,wscale 8], độ dài 0
11:30:36.119470 IP 35.191.1.151.61838 > 10.0.0.116.80: Flags [S], win 65535, tùy chọn [mss 1420,sackOK,TS ecr 0,nop,wscale 8], độ dài 0
11:30:38.167436 IP 35.191.1.151.61838 > 10.0.0.116.80: Flags [S], win 65535, tùy chọn [mss 1420,sackOK,TS ecr 0,nop,wscale 8], độ dài 0
11:30:40.110784 IP 35.191.1.151.59900 > 10.0.0.116.80: Flags [S], win 65535, tùy chọn [mss 1420,sackOK,TS ecr 0,nop,wscale 8], độ dài 0
11:30:41.111176 IP 35.191.1.151.59900 > 10.0.0.116.80: Flags [S], win 65535, tùy chọn [mss 1420,sackOK,TS ecr 0,nop,wscale 8], độ dài 0
11:30:43.159164 IP 35.191.1.151.59900 > 10.0.0.116.80: Flags [S], win 65535, tùy chọn [mss 1420,sackOK,TS ecr 0,nop,wscale 8], độ dài 0
11:30:45.112162 IP 35.191.1.151.36064 > 10.0.0.116.80: Flags [S], win 65535, tùy chọn [mss 1420,sackOK,TS ecr 0,nop,wscale 8], độ dài 0

Lưu ý rằng đích là IP giao diện người dùng cân bằng tải: 10.0.0.116 và tất nhiên chúng chỉ là các gói Đồng bộ hóa.

Ở giữa HTTPHC2 thành viên kiểm tra sức khỏe và thất nghiệp:

# tcpdump -n máy chủ 35.191.1.148
tcpdump: đầu ra dài dòng bị chặn, sử dụng -v hoặc -vv để giải mã giao thức đầy đủ
nghe trên ens4, loại liên kết EN10MB (Ethernet), kích thước chụp 262144 byte
10:46:12.475724 IP 35.191.1.148.64638 > 10.0.0.54.80: Flags [S], win 65535, tùy chọn [mss 1420,sackOK,TS ecr 0,nop,wscale 8], độ dài 0
10:46:12.475788 IP 10.0.0.54.80 > 35.191.1.148.64638: Flags [S.], win 64768, tùy chọn [mss 1420,sackOK,TS,nop,wscale 7], độ dài 0
10:46:12.476239 IP 35.191.1.148.64638 > 10.0.0.54.80: Flags [.], ack 1, win 256, tùy chọn [nop,nop,TS], độ dài 0
10:46:12.476239 IP 35.191.1.148.64638 > 10.0.0.54.80: Flags [P.], seq 1:117, ack 1, win 256, tùy chọn [nop,nop,TS], độ dài 116: HTTP: GET /?id=HTTPHC2 HTTP/1.1
10:46:12.476301 IP 10.0.0.54.80 > 35.191.1.148.64638: Flags [.], ack 117, win 506, tùy chọn [nop,nop,TS], độ dài 0
10:46:12.476546 IP 10.0.0.54.80 > 35.191.1.148.64638: Flags [P.], seq 1:867, ack 117, win 506, tùy chọn [nop,nop,TS], độ dài 866: HTTP: HTTP /1.1 200 được
10:46:12.476659 IP 35.191.1.148.64638 > 10.0.0.54.80: Flags [.], ack 867, win 267, tùy chọn [nop,nop,TS], độ dài 0
10:46:12.476679 IP 35.191.1.148.64638 > 10.0.0.54.80: Flags [F.], seq 117, ack 867, win 267, tùy chọn [nop,nop,TS], độ dài 0
10:46:12.476707 IP 10.0.0.54.80 > 35.191.1.148.64638: Flags [F.], seq 867, ack 118, win 506, tùy chọn [nop,nop,TS], độ dài 0
10:46:12.476879 IP 35.191.1.148.64638 > 10.0.0.54.80: Flags [.], ack 868, win 267, tùy chọn [nop,nop,TS], độ dài 0

Ở đây mọi thứ đều ổn.

THÊM 2021-11-16

Sau một số nghiên cứu, tôi đã tìm thấy bí danh IP bị thiếu trong địa phương bảng, không có gì ngạc nhiên khi thấy đó là địa chỉ IP của bộ cân bằng tải giao diện người dùng, được hiển thị dưới dạng máy chủ DST trong tcpdump!

Đây là máy làm việc:

# lộ trình ip hiển thị bảng dev ens4 cục bộ
local 10.0.0.48 máy chủ phạm vi kernel proto src 10.0.0.48 
máy chủ phạm vi 10.0.0.116 proto 66 cục bộ 
# uname -r
5.4.0-1056-gcp

Và đây là máy Đã cập nhật đầy đủ:

# lộ trình ip hiển thị bảng dev ens4 cục bộ
local 10.0.0.54 máy chủ phạm vi kernel proto src 10.0.0.54
# uname -r
5.4.0-1057-gcp

THÊM 2021-11-20

Bây giờ nó trở thành một vấn đề được biết đến: [Mạng đám mây] Sự cố dịch vụ tiềm ẩn: Đang điều tra

Bộ cân bằng tải proxy Google Cloud Global TCP có thể không phân phối được lưu lượng truy cập qua các quy tắc chuyển tiếp được định cấu hình bằng IP trong 34.111.0.0/17 phạm vi. Bản sửa lỗi vĩnh viễn cho dải IP đang được tiến hành

Wojtek_B avatar
lá cờ jp
Máy ảo mới có thể truy cập được từ các máy ảo khác trong cùng một VPC không? Bạn đã đăng nhập vào máy ảo mới của mình như thế nào?
lá cờ tl
@Wojtek_B VM có thể truy cập tốt thông qua IP của anh ấy (10.0.0.54). đó là LB (IMO thành phần giao diện người dùng) không biết IP thực của máy.
Wojtek_B avatar
lá cờ jp
Tôi nghi ngờ rằng thủ phạm ở đây là [Netplan](https://netplan.io/) mà tôi không quen nhưng vì đó là một tính năng tiện ích mạng và sau khi nâng cấp, bạn đã mất IP bên ngoài của VM và một trong các kiểm tra sức khỏe không thành công. Kiểm tra các tệp `/etc/netplan/*.yaml` của bạn trước và sau khi nâng cấp - chúng có bị thay đổi không?
Wojtek_B avatar
lá cờ jp
Bạn luôn có thể thử tạo một kiểm tra tình trạng khác sẽ hoạt động và thay đổi nó trong cài đặt của bộ cân bằng tải.
lá cờ tl
@Wojtek_B nếu mục tiêu tìm thấy gói có tội, vâng, kiểm tra `/etc/netplan/*.yaml` có thể là một giải pháp, nhưng mục tiêu của tôi là giải quyết vấn đề bằng cách giữ cho phương pháp sạch có thể, ví dụ: tạo một máy mới với ubuntu-20 (sẽ tốt hơn nếu là ubuntu-22) hoặc gỡ cài đặt gói XYZK không hữu ích, đây là nguồn gốc thực sự của sự cố.
lá cờ tl
@Wojtek_B Tôi không nghĩ có thể bỏ qua việc thiếu kiến ​​thức về "IP của thành viên nhóm" bên trong bộ cân bằng bằng bất kỳ hoạt động kiểm tra sức khỏe thực sự nào. :(
Wojtek_B avatar
lá cờ jp
Bạn có thể thử nâng cấp nhưng vẫn giữ các phiên bản cũ của các gói `libnetplan0`, `netplan.io` và `nplan` không?
lá cờ tl
Xin chào @Wojtek_B, tôi đã nâng cấp hệ thống ngoại trừ gói `*netplan*`, rất tiếc là tôi gặp sự cố, chúng không phải là "kẻ gây rối"
Wojtek_B avatar
lá cờ jp
Có lẽ chỉ cần thử cài đặt từng cái một và kiểm tra xem điều này có "phá vỡ" cấu hình hay không. Có vẻ như giải pháp khá nhanh chóng vì chỉ có một vài trong số chúng.
lá cờ tl
Không quá nhanh, điều đó có nghĩa là toàn bộ quá trình triển khai: bật nguồn-> cập nhật -> tắt nguồn-> hình ảnh-> đĩa-> mẫu-> triển khai + hoặc - 15/20 phút cho một gói. Ok, không xây dựng Rome nhưng không quá nhanh
Wojtek_B avatar
lá cờ jp
Bạn luôn có thể thử cài đặt nửa đầu và nếu sau khi khởi động lại, mọi thứ hoạt động bình thường thì bạn biết rằng bạn phải tìm nguyên nhân ở nửa còn lại. Tách nó thành hai lần nữa và lặp lại quá trình.
lá cờ tl
@Wojtek_B cách tiếp cận b-tree luôn tốt :D Tôi sẽ thử vào ngày mai
lá cờ tl
@Wojtek_B bạn nghĩ gì về lần *thêm* cuối cùng của tôi?
Wojtek_B avatar
lá cờ jp
Làm tốt lắm - bạn đã thêm tuyến đường chưa? `tuyến ip thêm vào địa chỉ IP_HERE dev ens4 proto 66`
lá cờ tl
@Wojtek_B Tôi vừa đọc câu trả lời của EthanWang và bây giờ tôi muốn biết câu trả lời cho câu hỏi của anh ấy: "tại sao google-guest-agent không tự động chạy";)
Wojtek_B avatar
lá cờ jp
Đây có vẻ là sự cố với tác nhân ghi nhật ký và tốt nhất bạn nên báo cáo sự cố này trên [Google's IssueTracker](issuetracker.google.com). Tôi đã thử sao chép nó với phiên bản Ubuntu 16.04 đơn giản và chạy Sudo apt upgrade mà không gặp vấn đề gì.
Điểm:3
lá cờ gb

Sau khi thử nghiệm, khởi tạo đám mây là nguyên nhân gốc rễ.

theo cái này bình luận, vô hiệu hóa_mạng_kích hoạt: đúng nên được thiết lập để tránh xung đột với google-khách-đại lý dịch vụ.

Giải pháp là thêm cài đặt trong khởi tạo đám mây cấu hình.

mèo > /etc/cloud/cloud.cfg.d/99-disable-network-activation.cfg <<EOF
# Tắt kích hoạt mạng để ngăn \`cloud-init\` tạo mạng
# thay đổi xung đột với \`google-guest-agent\`.
# Xem: https://github.com/canonical/cloud-init/pull/1048

vô hiệu hóa_mạng_kích hoạt: đúng
EOF

Tập tin này tồn tại trong hình ảnh chính thức Ubuntu-1804-bionic-v20211103.

Sau khi thêm tệp này, google-khách-đại lý đang chạy bình thường.

lá cờ tl
Tôi nghĩ bạn đã làm rất tốt, đã tìm ra giải pháp và tạo đường dẫn bash (hoạt động như một cơ duyên). Làm tốt lắm!
Điểm:0
lá cờ cn

Tôi có một máy chạy Ubuntu 18.04.5, gặp vấn đề tương tự sau khi chạy nâng cấp apt dist, cũng nâng cấp google-guest-agent 20210629.00-0ubuntu1~18.04.1 (có thể nâng cấp từ: 20210414.00-0ubuntu1~18.04.0).

Tìm thấy điều đó google-khách-đại lý không chạy sau khi nâng cấp. Khi tôi thực hiện /usr/bin/google_guest_agent thủ công, vấn đề được giải quyết.

Vẫn không biết tại sao google-khách-đại lý không chạy tự động.

lá cờ tl
Cảm ơn @Ethan, tôi sẽ chuyển thông tin của bạn cho bộ phận hỗ trợ của google và tôi sẽ cập nhật cho bạn
lá cờ tl
Tôi tự hỏi tại sao vấn đề này không phổ biến. Có thể là do chỉ xảy ra trên hệ thống "tùy chỉnh", vì vậy, ví dụ: tôi đã tắt "apt-daily.service". Tương tự cho bạn?

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.