Trả lời câu hỏi của riêng tôi khi tôi tìm thấy một giải pháp.
Tình trạng chết máy xảy ra ngay cả khi các số liệu thống kê miễn phí có vẻ tốt, chẳng hạn như trên RAM 256G, chỉ có 140G được sử dụng và vẫn còn khoảng 100G hiển thị là miễn phí.
[root@serverxx ~]# miễn phí -g
tổng số buff/bộ đệm được chia sẻ miễn phí đã sử dụng hiện có
Mem: 251 140 108 0 2 108
Hoán đổi: 19 6 13
oom kill được kích hoạt bởi %commit cao trong số liệu thống kê sar nơi hạt nhân bắt đầu nhắm mục tiêu các phiên bản có dung lượng bộ nhớ cao để giải phóng .
Để tránh oom kill đối với các phiên bản khách có dung lượng bộ nhớ cao hơn, tôi đặt như sau.
vm.oom_kill_allocation_task=1
Khi tôi thực hiện sar -r, %commit cao hơn nhiều so với khả năng phân bổ của hệ thống và từ ps, tôi nhận ra rằng đó là vùng chứa dự phòng chất kết dính được tạo theo mặc định từ các triển khai kolla-ansible nhưng không được định cấu hình.
Số liệu thống kê về dịch vụ sao lưu Cinder mà tôi không định cấu hình và nó chỉ đang chạy, hóa ra vùng chứa chưa được định cấu hình đang chiếm hết bộ nhớ ngoài giờ như đã thấy từ đầu ra của lệnh ps trong vsz.
ps -eo args,comm,pid,ppid,rss,vsz --sort vsz cột
VSZ cực cao
Chỉ huy        Â
/usr/libexec/qemu-kvm -name qemu-kvm           1916998   47324 8094744 13747664
/var/lib/kolla/venv/bin/pyt cinder-backup       43689  43544 170999912 870274784
Số liệu thống kê Sar cho % cam kết trở lại bình thường sau khi vùng chứa sao lưu bị dừng và bây giờ mọi thứ đã trở lại bình thường. %commit được đánh dấu từ 1083,46 đến 14,21 sau những thay đổi.
02:00:37 PM kbmemfree kbavail kbmemused %đã nhớ kbbuffers kbcached kbcommit %commit kbactive kbinact kbdirty
03:00:37 CH 48843576 49998184 82890508 62.92 9576 5949348 1427280428 1083.46 75646888 2797388 324
03:10:37 CH 48829248 49991284 82904836 62.93 9576 5956544 1427343664 1083.50 75653556 2804592 116
03:20:22 Chiều 120198612 121445516 11535472 8.76 9576 6042892 18733688 14.22 4887688 2854704 80
03:30:37 Chiều 120189464 121444176 11544620 8.76 9576 6050200 18725820 14.21 4887752 2862248 88