Chúng tôi đang giám sát cụm máy tính HPC bằng cách sử dụng kết hợp Prometheus, Alertmanager và Grafana. Trên các máy của chúng tôi, những thứ như bộ nhớ SWAP đầy đến giới hạn về cơ bản xảy ra thường xuyên và mặc dù rất hữu ích khi xem thông số tương ứng thông tin
-cấp độ cảnh báo trong bảng điều khiển Cảnh báo Grafana, tốt nhất là chúng tôi không gửi các email tương ứng.
Có cách nào để tắt tiếng/tắt tất cả, chẳng hạn như cảnh báo email có mức độ nghiêm trọng không thông tin
bên trong cảnh báo.yml
tập tin cấu hình?
Tất cả các cảnh báo đều được xác định tương tự như cảnh báo này (được điều chỉnh từ https://awesome-prometheus-alerts.grep.to/rules.html):
- cảnh báo: HostSwapIsFillingUp
expr: (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 95
cho: 60m
nhãn:
mức độ nghiêm trọng: thông tin
chú thích:
tóm tắt: Hoán đổi máy chủ đang đầy (ví dụ {{ $labels.instance }})
mô tả: "Swap đang đầy (>95%)\n VALUE = {{ $value }}"
và phần tương ứng trong cảnh báo.yml
tập tin đọc
tuyến đường:
- trận đấu:
mức độ nghiêm trọng: 'cảnh báo'
repeat_interval: 24h
tiếp tục: đúng
- trận đấu:
mức độ nghiêm trọng: 'thông tin'
repeat_interval: 24h
tiếp tục: đúng
người nhận: bị rơi
người nhận:
- tên: 'admin-mails'
email_config:
- tới: 'admin@DOMAIN'
- tên: 'rơi'
email_config:
- tới: 'admin@DOMAIN'
Có khả năng để đảm bảo rằng thông tin
-các cảnh báo cấp độ không bao giờ gây ra email trong khi đồng thời vẫn khiến chúng "cháy", để Grafana sẽ hiển thị chúng?