Điểm:0

Làm thế nào để chẩn đoán hành vi sai hạt nhân không liên tục kỳ lạ

lá cờ mg

xem Nhật ký sự kiện hướng xuống xa hơn.

Tôi đang dùng Ubuntu Server 21.04 chạy kernel 5.11.0-1015-raspi trên aarch64.

Những điều hiệu quả nhất cần chuẩn bị để tiếp tục chẩn đoán điều này vào lần tiếp theo nó xảy ra là gì?

Thỉnh thoảng sau khi sử dụng nhiều, tôi bắt đầu gặp các sự cố lạ như sau:

  • một số quy trình không nên làm gì hiển thị mức sử dụng 100% của một lõi trên hàng đầu (điều này đã xảy ra gần đây với các tập lệnh bash lặp lại trên inotifywait trên các tệp sự kiện của nhà phát triển)
  • những quy trình này và một số quy trình khác không kết thúc bằng giết -9 (Tôi đã cho rằng inotifywait chỉ đơn giản là chấm dứt ngay lập tức ngoại trừ điều này)
  • hệ thống có thể tiếp tục chạy các dịch vụ nhưng tty có thể tạm dừng xử lý đầu vào hoặc đầu ra, bao gồm cả tty nối tiếp
  • hoán đổi/đường dẫn/đến/hoán đổi có thể bị treo vô thời hạn ngay cả khi không sử dụng không gian hoán đổi nào nữa
  • tắt máy systemctl có thể bị treo vô thời hạn hoặc hệ thống có thể tắt một phần rồi treo
  • đèn bàn phím usb có thể ngừng phản hồi
  • lời nhắc đăng nhập có thể đợi rất lâu sau khi người dùng được nhập và sau đó bị treo sau khi chỉ hiển thị một phần của lời nhắc mật khẩu
  • tổ hợp phím có thể bị rớt
  • đôi khi các thông báo kernel lặp đi lặp lại trên một tty chỉ ra cùng một tác vụ bị treo
  • Khi không phản hồi vô thời hạn, tôi không thấy bất kỳ sự hoảng loạn hạt nhân nào khi mở dmesg --theo dõi, tạp chí --follow, hoặc tty
  • Đặc biệt đèn caps lock nhìn chung không hoạt động trên máy này. Đèn caps lock cũng không hoạt động trên aarch64 olimex teres của tôi.

Gần đây tôi đã cập nhật hệ thống và hy vọng các sự cố này có thể giảm bớt, nhưng tôi muốn biết thêm những gì tôi có thể làm để có thể giúp chẩn đoán hoặc xử lý chúng. Tôi đã cố gắng cắm cáp nối tiếp vào và rất ngạc nhiên rằng bản thân thiết bị đầu cuối nối tiếp có thể bị treo vô thời hạn ở giữa đầu ra.

Điều này thường xảy ra liên quan đến phân bổ trao đổi quá mức, vượt quá dung lượng ram có sẵn, nhưng một số vấn đề, chẳng hạn như các quy trình lạ sẽ không hoạt động. giết -9, ngụ ý nhiều hơn là chỉ bộ nhớ tấn công tôi và các vấn đề không biến mất khi bộ nhớ được giải phóng, mặc dù tôi chưa có kinh nghiệm với nhân Linux.

Lý tưởng nhất là cuối cùng tôi muốn thu hẹp vấn đề thành lỗi trong nhân, sự cố với phần cứng của tôi hoặc hệ thống bị xâm phạm.

Nhật ký sự kiện:

2021-08-09

Sau đó systemctl cô lập đồ họasystemctl cô lập nhiều người dùng systemd-journal đang sử dụng 99% cpu làm ngập tạp chí mà org.gnome.Shell@x11 ​​đang chờ dừng. trạng thái hệ thống nói rằng không có dịch vụ như vậy. Tôi đã cố gắng tạp chí | pastebinit. Tôi e rằng giao diện đã ngừng phản hồi trước khi tôi nhận được url.

Lần này có vẻ như đây không phải là sự cố bộ nhớ ảo, nhưng đây là kết quả đầu ra bộ nhớ mà tôi nhận được trước khi nó bị đóng băng:

miễn phí -h: https://paste.ubuntu.com/p/3c5tSTgGc4 (ảnh này được chụp khi nó đang hủy hoán đổi; nó đã hoàn thành việc hủy hoán đổi)

sysctl vm.swappiness: https://paste.ubuntu.com/p/cpvJw4Nd8f

Lúc 10:29 UTC, phiên tmux của tôi bị đóng băng. Tôi đã chuyển sang tty3 và cố gắng đăng nhập. tty bị treo hiển thị mật khẩu. Vào lúc 10:32 UTC, quạt quay ở mức cao trong khoảng 1 phút.

Tôi có một hệ thống ngoại tuyến được kết nối với thiết bị đầu cuối nối tiếp với dmesg đang mở. Những dòng cuối cùng liên quan đến rfkill, được sao chép thủ công vào điện thoại di động của tôi dưới đây:

[225366.651144] md: kiểm tra dữ liệu mảng RAID md4
[225724.680213] rfkill: đã bật trình xử lý đầu vào
[225745.716506] rfkill: trình xử lý đầu vào bị tắt
[225751.439369] rfkill: đã bật trình xử lý đầu vào

Lúc 10:33 tty3 hiển thị "Đã hết thời gian đăng nhập sau 60 giây." mà không bao giờ hiển thị lời nhắc mật khẩu. Nó bị treo mà không hiển thị dấu nhắc đăng nhập khác. Tôi đã gửi một ^C tới tty nối tiếp vào khoảng 10:35 và nó đã được gửi lại cho tôi nhưng không có dấu nhắc đầu cuối nào được xuất ra để cho biết rằng dmesg đã bị gián đoạn. 10:36 hoặc 10:37 đầu ra tty nối tiếp/lặp lại dấu xuống dòng. Không có đầu vào mới. Quạt lại quay lên. 10:39 nối tiếp tty hiển thị lời nhắc xử lý khóa trả về đang chờ xử lý và lại bị treo. 10:42 có lời nhắc nối tiếp ! 11:00 nhưng tôi vẫn đang cố thực hiện bất kỳ lệnh nào trong dấu nhắc. Nó cực kỳ chậm nhưng không bị mất các lần nhấn phím từ bộ đệm của nó (điều này đôi khi xảy ra với tôi) 11:01 hệ thống phản hồi trên serial và tty3. Nó đã giết chết pastebinit do oom.

bộ nhớ lshw -C: https://paste.ubuntu.com/p/x5GMkHRktS

heynnema avatar
lá cờ ru
Chỉnh sửa câu hỏi của bạn và cho tôi xem `free -h` và `sysctl vm.swappiness` và `swapon -s` và `sudo lshw -C memory`. Bắt đầu nhận xét cho tôi bằng @heynnema nếu không tôi sẽ nhớ chúng.
fuzzyTew avatar
lá cờ mg
@heynnema Tôi chỉ nhận được 2 lệnh bạn yêu cầu. Tôi đang cố lấy thêm dữ liệu nhưng tty nối tiếp chiếm hơn một phút cho mỗi ký tự và tôi mắc nhiều lỗi chính tả. Dịch vụ org.gnome.Shell@x11 ​​có hữu ích không?
heynnema avatar
lá cờ ru
Sẽ rất hữu ích nếu bạn thực hiện `tail /var/log/syslog` để xem một vài mục cuối cùng và xem liệu có điều gì đó lặp lại hay không. Bạn có quyền truy cập vào DVD/USB Ubuntu Live Desktop không? Bạn có thể tạo một cái trên hệ thống khác không? Khởi động nó và xem hệ thống phản hồi như thế nào. Tôi nghi ngờ rằng bạn có một vấn đề phần cứng. Có thể ngay cả với RAID của bạn.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.