Bối cảnh: Máy chủ Debian Stretch amd64 trên Google Cloud với Apache 2.4.25. Nó đang chạy một trang web dựa trên PHP thông qua proxy_fcgi đến PHP-FPM. Cơ sở dữ liệu phụ trợ là PostgreSQL 10. Các gói Postgres đã được cài đặt từ kho lưu trữ apt Postgres chính thức, mọi thứ khác là vanilla từ kho lưu trữ Debian. Có một cổng 80 chuyển hướng đến 443 với chứng chỉ Let's Encrypt. HTTP/2 và Brotli được bật. Ngoài ra còn có một proxy ngược tới daemon Sự kiện do Máy chủ Gửi trên cùng một máy chủ (https://github.com/vgno/ssehub).
Máy chủ đã hoạt động được hơn 2 năm, nhưng trong vài tháng gần đây, có một lỗi không liên tục khiến trang web ngừng phản hồi các yêu cầu. Nó thường rõ ràng sau một vài phút. Tôi đã thực hiện rất nhiều phân tích nhật ký và có vẻ như nó không liên quan đến các quy trình của máy chủ. Mức sử dụng CPU là không đáng kể, mức sử dụng bộ nhớ thấp, không có lỗi nào xuất hiện trong nhật ký cho Apache, PostgreSQL, FPM, syslog, ssehub. Máy chủ cũng đã cài đặt fail2ban nhưng cũng không có mục nhật ký nào cho điều đó. Tôi đã đưa vào nhật ký chẩn đoán bổ sung trong Apache và FPM để kiểm tra các yêu cầu mất nhiều thời gian để xử lý, nhưng điều đó không giải quyết được gì.
Đây là đầu ra từ iptables -L
:
ĐẦU VÀO chuỗi (chính sách CHẤP NHẬN)
đích prot opt nguồn đích
f2b-sshd tcp -- mọi nơi mọi nơi đa cổng dports ssh
DROP udp -- bất cứ đâu ở bất cứ đâu udp dpt:l2f policy match dir in pol none
DROP all -- mọi nơi mọi nơi ctstate INVALID
CHẤP NHẬN tất cả -- mọi nơi mọi nơi ctstate LIÊN QUAN, THÀNH LẬP
CHẤP NHẬN udp -- bất cứ nơi đâu nhiều cổng dports isakmp,ipsec-nat-t
CHẤP NHẬN udp -- mọi nơi mọi nơi udp dpt:l2f khớp chính sách dir trong pol ipsec
DROP udp -- mọi nơi mọi nơi udp dpt:l2f
Chuỗi FORWARD (chính sách CHẤP NHẬN)
đích prot opt nguồn đích
DROP all -- mọi nơi mọi nơi ctstate INVALID
CHẤP NHẬN tất cả -- mọi nơi mọi nơi ctstate LIÊN QUAN, THÀNH LẬP
CHẤP NHẬN tất cả -- mọi nơi mọi nơi
CHẤP NHẬN tất cả -- 192.168.42.0/24 192.168.42.0/24
CHẤP NHẬN tất cả -- mọi nơi 192.168.43.0/24 ctstate LIÊN QUAN,THÀNH LẬP
CHẤP NHẬN tất cả -- 192.168.43.0/24 mọi nơi
DROP all -- mọi nơi mọi nơi
ĐẦU RA chuỗi (chính sách CHẤP NHẬN)
đích prot opt nguồn đích
Chuỗi f2b-sshd (1 tài liệu tham khảo)
đích prot opt nguồn đích
TRẢ LẠI tất cả -- mọi nơi mọi nơi
Bất kỳ đề xuất cho nguyên nhân có thể hoặc những điều tôi nên kiểm tra? Hiện tại, nguyên nhân duy nhất tôi có thể nghĩ đến là tắc nghẽn mạng, nhưng điều đó rất khó chứng minh vì đây là sự cố không liên tục và thường sẽ hết khi tôi biết về nó và bắt đầu thực hiện một số thử nghiệm. Ngoài ra, có vẻ ngạc nhiên khi Google Cloud thường xuyên gặp sự cố mạng như vậy.Google có một số loại chính sách định hình lưu lượng truy cập mà tôi không biết không? Đó là một máy chủ có lưu lượng truy cập rất thấp và sự cố thường xảy ra ngoài giờ khi hầu như không có ai sử dụng trang web.