Tôi đang chạy Apache 2 với máy chủ PHP 7.4.29 trên Ubuntu 20.04 trên AWS bằng bộ cân bằng tải AWS và nhóm tự động thay đổi quy mô. Các máy chủ kết nối với các tài nguyên AWS khác như dynamodb, RDS (mysql), memcache, v.v.
Đây là môi trường sản xuất ổn định, hoạt động bình thường với tốc độ 10K/lần truy cập mỗi phút và hoạt động hoàn hảo.
Gần đây, chúng tôi đã có lưu lượng truy cập thông thường cao gấp 3 lần và các máy chủ bắt đầu có thời gian phản hồi chậm.
Relic mới chỉ hiển thị rằng thời gian PHP lớn hơn đối với các giao dịch này và không chỉ ra một dịch vụ cụ thể.
Vấn đề là tại một thời điểm nhất định, một số máy chủ này có thời gian phản hồi bình thường
(~30 mili giây) và một số trong số chúng có thời gian phản hồi chậm (~500 mili giây). Và điều này luân phiên giữa các máy chủ.
Do đó, có vẻ như tình trạng chậm lại không liên quan đến một dịch vụ bên ngoài chẳng hạn như RDS vì các dịch vụ này đều giống nhau đối với tất cả các máy chủ.
Tôi đang đính kèm thời gian phản hồi của tất cả các máy chủ đang hoạt động tại một khung thời gian cụ thể.
Điều gì có thể gây ra một hành vi như vậy?
TLDR: Tôi đang hỏi cách tìm lý do khiến thời gian phản hồi của máy chủ PHP/Apache bị chậm khi nó không xảy ra đồng thời trên tất cả các máy chủ (do đó, đây không phải là dịch vụ chia sẻ bên ngoài) và di tích mới chỉ hiển thị dưới dạng thời gian PHP trong giao dịch mà không có thông tin bổ sung.