Chúng tôi đã tạo cụm GKE và chúng tôi đang gặp lỗi từ gke-metrics-agent. Các lỗi xuất hiện cứ sau 30 phút. Nó luôn luôn giống nhau 62 lỗi.
Tất cả các lỗi đều có nhãn k8s-pod/k8s-app: "gke-metrics-agent".
lỗi đầu tiên là:
lỗi exporthelper/queued_retry.go:245 Xuất không thành công. Thử bật tùy chọn cấu hình retry_on_failure. {"kind": "exporter", "name": "googlecloud", "error": "rpc error: code = DeadlineExceeded desc = Thời hạn đã hết trước khi hoạt động có thể hoàn tất."
Lỗi này được theo sau bởi các lỗi này theo thứ tự
- "go.opentelemetry.io/collector/exporter/exporterhelper.(*retrySender).send"
- "/go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/queued_retry.go:245"
- go.opentelemetry.io/collector/exporter/exporterhelper.(*metricsSenderWithObservability).send
- /go/src/gke-logmon/gke-metrics-agent/vendor/go.opentelemetry.io/collector/exporter/exporterhelper/metrics.go:120
Có cca 40 lỗi như thế này. Hai lỗi nổi bật là:
- lỗi exporthelper/queued_retry.go:175 Xuất không thành công. Thả dữ liệu.Hãy thử kích hoạt send_queue để tồn tại những lỗi tạm thời. {"kind": "exporter", "name": "googlecloud", "dropped_items": 19}"
- cảnh báo batchprocessor/batch_processor.go:184 Người gửi không thành công {"kind": "processor", "name": "batch", "error": "rpc error: code = DeadlineExceeded desc = Thời hạn đã hết trước khi thao tác có thể hoàn tất."} "
Tôi đã cố gắng tìm kiếm những lỗi đó trên google nhưng tôi không thể tìm thấy gì. Tôi thậm chí không thể tìm thấy bất kỳ tài liệu nào về gke-metrics-agent.
Những điều tôi đã thử:
- kiểm tra hạn ngạch
- cập nhật GKE lên phiên bản mới hơn (phiên bản hiện tại là 1.21.3-gke.2001)
- cập nhật các nút
- vô hiệu hóa tất cả các quy tắc tường lửa
- cấp tất cả quyền cho các nút k8s
Tôi có thể cung cấp thêm thông tin về cụm kubernetes của chúng tôi nhưng tôi không biết thông tin nào có thể quan trọng để giải quyết vấn đề này.