xem Nhật ký sự kiện hướng xuống xa hơn.
Tôi đang dùng Ubuntu Server 21.04 chạy kernel 5.11.0-1015-raspi trên aarch64.
Những điều hiệu quả nhất cần chuẩn bị để tiếp tục chẩn đoán điều này vào lần tiếp theo nó xảy ra là gì?
Thỉnh thoảng sau khi sử dụng nhiều, tôi bắt đầu gặp các sự cố lạ như sau:
- một số quy trình không nên làm gì hiển thị mức sử dụng 100% của một lõi trên
hàng đầu
(điều này đã xảy ra gần đây với các tập lệnh bash lặp lại trên inotifywait trên các tệp sự kiện của nhà phát triển)
- những quy trình này và một số quy trình khác không kết thúc bằng
giết -9
(Tôi đã cho rằng inotifywait chỉ đơn giản là chấm dứt ngay lập tức ngoại trừ điều này)
- hệ thống có thể tiếp tục chạy các dịch vụ nhưng tty có thể tạm dừng xử lý đầu vào hoặc đầu ra, bao gồm cả tty nối tiếp
hoán đổi/đường dẫn/đến/hoán đổi
có thể bị treo vô thời hạn ngay cả khi không sử dụng không gian hoán đổi nào nữa
tắt máy systemctl
có thể bị treo vô thời hạn hoặc hệ thống có thể tắt một phần rồi treo
- đèn bàn phím usb có thể ngừng phản hồi
- lời nhắc đăng nhập có thể đợi rất lâu sau khi người dùng được nhập và sau đó bị treo sau khi chỉ hiển thị một phần của lời nhắc mật khẩu
- tổ hợp phím có thể bị rớt
- đôi khi các thông báo kernel lặp đi lặp lại trên một tty chỉ ra cùng một tác vụ bị treo
- Khi không phản hồi vô thời hạn, tôi không thấy bất kỳ sự hoảng loạn hạt nhân nào khi mở
dmesg --theo dõi
, tạp chí --follow
, hoặc tty
- Đặc biệt đèn caps lock nhìn chung không hoạt động trên máy này. Đèn caps lock cũng không hoạt động trên aarch64 olimex teres của tôi.
Gần đây tôi đã cập nhật hệ thống và hy vọng các sự cố này có thể giảm bớt, nhưng tôi muốn biết thêm những gì tôi có thể làm để có thể giúp chẩn đoán hoặc xử lý chúng. Tôi đã cố gắng cắm cáp nối tiếp vào và rất ngạc nhiên rằng bản thân thiết bị đầu cuối nối tiếp có thể bị treo vô thời hạn ở giữa đầu ra.
Điều này thường xảy ra liên quan đến phân bổ trao đổi quá mức, vượt quá dung lượng ram có sẵn, nhưng một số vấn đề, chẳng hạn như các quy trình lạ sẽ không hoạt động. giết -9
, ngụ ý nhiều hơn là chỉ bộ nhớ tấn công tôi và các vấn đề không biến mất khi bộ nhớ được giải phóng, mặc dù tôi chưa có kinh nghiệm với nhân Linux.
Lý tưởng nhất là cuối cùng tôi muốn thu hẹp vấn đề thành lỗi trong nhân, sự cố với phần cứng của tôi hoặc hệ thống bị xâm phạm.
Nhật ký sự kiện:
2021-08-09
Sau đó systemctl cô lập đồ họa
và systemctl cô lập nhiều người dùng
systemd-journal đang sử dụng 99% cpu làm ngập tạp chí mà org.gnome.Shell@x11 đang chờ dừng. trạng thái hệ thống
nói rằng không có dịch vụ như vậy.
Tôi đã cố gắng tạp chí | pastebinit
. Tôi e rằng giao diện đã ngừng phản hồi trước khi tôi nhận được url.
Lần này có vẻ như đây không phải là sự cố bộ nhớ ảo, nhưng đây là kết quả đầu ra bộ nhớ mà tôi nhận được trước khi nó bị đóng băng:
miễn phí -h
: https://paste.ubuntu.com/p/3c5tSTgGc4 (ảnh này được chụp khi nó đang hủy hoán đổi; nó đã hoàn thành việc hủy hoán đổi)
sysctl vm.swappiness
: https://paste.ubuntu.com/p/cpvJw4Nd8f
Lúc 10:29 UTC, phiên tmux của tôi bị đóng băng. Tôi đã chuyển sang tty3 và cố gắng đăng nhập. tty bị treo hiển thị mật khẩu.
Vào lúc 10:32 UTC, quạt quay ở mức cao trong khoảng 1 phút.
Tôi có một hệ thống ngoại tuyến được kết nối với thiết bị đầu cuối nối tiếp với dmesg đang mở. Những dòng cuối cùng liên quan đến rfkill, được sao chép thủ công vào điện thoại di động của tôi dưới đây:
[225366.651144] md: kiểm tra dữ liệu mảng RAID md4
[225724.680213] rfkill: đã bật trình xử lý đầu vào
[225745.716506] rfkill: trình xử lý đầu vào bị tắt
[225751.439369] rfkill: đã bật trình xử lý đầu vào
Lúc 10:33 tty3 hiển thị "Đã hết thời gian đăng nhập sau 60 giây." mà không bao giờ hiển thị lời nhắc mật khẩu. Nó bị treo mà không hiển thị dấu nhắc đăng nhập khác.
Tôi đã gửi một ^C tới tty nối tiếp vào khoảng 10:35 và nó đã được gửi lại cho tôi nhưng không có dấu nhắc đầu cuối nào được xuất ra để cho biết rằng dmesg đã bị gián đoạn.
10:36 hoặc 10:37 đầu ra tty nối tiếp/lặp lại dấu xuống dòng. Không có đầu vào mới. Quạt lại quay lên.
10:39 nối tiếp tty hiển thị lời nhắc xử lý khóa trả về đang chờ xử lý và lại bị treo.
10:42 có lời nhắc nối tiếp !
11:00 nhưng tôi vẫn đang cố thực hiện bất kỳ lệnh nào trong dấu nhắc. Nó cực kỳ chậm nhưng không bị mất các lần nhấn phím từ bộ đệm của nó (điều này đôi khi xảy ra với tôi)
11:01 hệ thống phản hồi trên serial và tty3. Nó đã giết chết pastebinit do oom.
bộ nhớ lshw -C: https://paste.ubuntu.com/p/x5GMkHRktS