Công ty tôi làm việc có khoảng 100 máy chủ Ubuntu 18.04 nằm rải rác trên khắp Hoa Kỳ như một phần của một trong các dòng sản phẩm của chúng tôi. Chúng tôi chưa gặp BẤT KỲ sự cố nào với những chiếc máy này trong 1-2 năm, cho đến tuần trước. Trong 5 ngày qua, sáu đơn vị đã có lỗi nghiêm trọng cuối cùng dẫn đến hệ thống tệp Chỉ đọc.
Cuối cùng tôi đã có quyền truy cập vật lý vào một trong các thiết bị.
Tôi tìm thấy những điều sau đây trong DMESG: EXT4-fs (dm-0): Không thể đếm lại RDWR vì danh sách inode mồ côi chưa được xử lý. Thay vào đó hãy đếm/kể lại
Và chạy fsck.ext4 -n /dev/sda2 (là phân vùng gốc) mang lại một số inode mồ côi.
Tôi chắc chắn rằng một fsck có thể sửa nó nhưng tôi quan tâm hơn đến nguyên nhân gây ra điều này ngay từ đầu.
Tôi cũng đã tìm thấy một số lỗi hạt nhân trong nhật ký hệ thống:
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937302] LỖI: không thể xử lý yêu cầu phân trang kernel tại ffff93cdf5ef2eaa
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937348] IP: kmem_cache_alloc+0x7a/0x1c0
Ngày 27 tháng 7 12:35:09 xxxxxxx hạt nhân: [ 5505.937360] PGD 87d99067 P4D 87d99067 PUD 0
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937383] Rất tiếc: 0000 [#3] SMP PTI
Jul 27 12:35:09 xxxxxxx kernel: [ 5505.937395] Modules linked in: ccm intel_rapl intel_soc_dts_thermal intel_soc_dts_iosf intel_powerclamp coretemp kvm_intel arc4 kvm irqbypass snd_hda_codec_hdmi punit_atom_debug joydev iwlmvm snd_hda_codec_realtek intel_cstate snd_hda_codec_generic mac80211 snd_hda_intel iwlwifi snd_hda_codec snd_hda_core snd_hwdep hid_multitouch input_leds cfg80211 snd_pcm ftdi_sio lpc_ich serio_raw snd_timer usbserial btusb cdc_acm btrtl snd mei_txe shpchp mei soundcore hci_uart btbcm btqca btintel rfkill_gpio bluetooth ecdh_generic pwm_lpss_platform pwm_lpss mac_hid sch_fq_codel ib_iser rdma_cm iw_cm ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi ip_tables x_tables autofs4 btrfs zstd_compress raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1
Ngày 27 tháng 7 12:35:09 hạt nhân xxxxxxx: [ 5505.937571] đột kích0 tuyến tính đa tuyến tính hid_generic usbhid i915 crct10dif_pclmul crc32_pclmul drm_kms_helper ghash_clmulni_intel cryptd syscopyarea sysfillrect igb sysimgblt psmouse fb_sys_fops dca pp i2c_ahalgop_bit dcore i2c_algop_bit dcore igb sysimgblt psmouse
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937646] CPU: 0 PID: 1212 Comm: uwsgi Tainted: G D 4.15.0-151-generic #157-Ubuntu
Ngày 27 tháng 7 12:35:09 kernel xxxxxxx: [ 5505.937657] Tên phần cứng: Winmate Inc. IB3S/IB32S, BIOS V210 06/05/2019
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937676] RIP: 0010:kmem_cache_alloc+0x7a/0x1c0
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937689] RSP: 0018:ffffb7b6c1207d58 EFLAGS: 00010286
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937703] RAX: ffff93cdf5ef2eaa RBX: 0000000000000000 RCX: 0000000000000000
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937715] RDX: 0000000000009791 RSI: 00000000014080c0 RDI: 0000440bc0024800
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937727] RBP: ffffb7b6c1207d88 R08: ffffd7b6bfc24800 R09: ffff93aaf1400c00
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937738] R10: 0000000000000010 R11: 0000000000026d00 R12: ffff93cdf5ef2eaa
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937750] R13: 00000000014080c0 R14: ffff93aafb017800 R15: ffff93aaf1405e00
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937765] FS: 00007fe86c207740(0000) GS:ffff93aaffc00000(0000) knlGS:0000000000000000
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937778] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937789] CR2: ffff93cdf5ef2eaa CR3: 00000001314ce000 CR4: 00000000001006f0
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.937800] Theo dõi cuộc gọi:
Ngày 27 tháng 7 12:35:09 hạt nhân xxxxxxx: [ 5505.937824] ? __delayact_tsk_init+0x1e/0x40
Ngày 27 tháng 7 12:35:09 hạt nhân xxxxxxx: [ 5505.937844] __delayacct_tsk_init+0x1e/0x40
Ngày 27 tháng 7 12:35:09 kernel xxxxxxx: [ 5505.937868] copy_ process.part.35+0x6d3/0x1c00
Ngày 27 tháng 7 12:35:09 hạt nhân xxxxxxx: [ 5505.937887] ? __handle_mm_fault+0xa21/0xff0
Ngày 27 tháng 7 12:35:09 kernel xxxxxxx: [ 5505.937911] _do_fork+0xdf/0x400
Ngày 27 tháng 7 12:35:09 hạt nhân xxxxxxx: [ 5505.937931] ? __do_page_fault+0x2a1/0x4b0
Ngày 27 tháng 7 12:35:09 hạt nhân xxxxxxx: [ 5505.937951] ? get_unused_fd_flags+0x30/0x40
Ngày 27 tháng 7 12:35:09 hạt nhân xxxxxxx: [ 5505.937971] SyS_clone+0x19/0x20
Ngày 27 tháng 7 12:35:09 kernel xxxxxxx: [ 5505.937990] do_syscall_64+0x73/0x130
Ngày 27 tháng 7 12:35:09 kernel xxxxxxx: [ 5505.938009] entry_SYSCALL_64_after_hwframe+0x41/0xa6
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.938025] RIP: 0033:0x7fe86a002b7c
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.938036] RSP: 002b:00007fff26bfcc60 EFLAGS: 00000246 ORIG_RAX: 0000000000000038
Ngày 27 tháng 7 12:35:09 hạt nhân xxxxxxx: [ 5505.938052] RAX: ffffffffffffffda RBX: 00007fff26bfcc60 RCX: 00007fe86a002b7c
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.938063] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000001200011
Ngày 27 tháng 7 12:35:09 hạt nhân xxxxxxx: [ 5505.938075] RBP: 00007fff26bfccd0 R08: 00007fe86c207740 R09: 00007fe86a5cab40
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.938086] R10: 00007fe86c207a10 R11: 0000000000000246 R12: 0000000000000000
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.938098] R13: 0000000000000020 R14: 0000000000000000 R15: 0000000001abacf8
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.938113] Code: 50 08 65 4c 03 05 0f d5 1b 4d 49 83 78 10 00 4d 8b 20 0f 84 09 01 00 00 4d 85 e4 0f 84 906 01 01 47 20 49 8b 3f 4c 01 e0 <48> 8b 18 49 33 9f 40 01 00 00 48 89 c1 48 0f c9 4c 89 e0 48 31
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.938259] RIP: kmem_cache_alloc+0x7a/0x1c0 RSP: ffffb7b6c1207d58
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.938269] CR2: ffff93cdf5ef2eaa
Ngày 27 tháng 7 12:35:09 xxxxxxx kernel: [ 5505.938284] ---[ dấu vết kết thúc 5841e09627f12869 ]---
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077278] LỖI: không thể xử lý yêu cầu phân trang kernel tại ffff994c94603766
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077295] IP: down_write+0x1f/0x40
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077298] PGD a0599067 P4D a0599067 PUD 0
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077304] Rất tiếc: 0002 [#2] SMP PTI
Jul 26 19:46:35 xxxxxxx kernel: [167923.077308] Modules linked in: ccm arc4 snd_hda_codec_hdmi iwlmvm snd_hda_codec_realtek snd_hda_codec_generic mac80211 intel_rapl intel_soc_dts_thermal intel_soc_dts_iosf intel_powerclamp coretemp kvm_intel joydev kvm irqbypass punit_atom_debug intel_cstate iwlwifi snd_hda_intel snd_hda_codec ftdi_sio serio_raw hid_multitouch snd_hda_core lpc_ich cfg80211 input_leds mei_txe snd_hwdep snd_pcm usbserial btusb btrtl mei snd_timer snd cdc_acm soundcore shpchp hci_uart btbcm btqca btintel bluetooth rfkill_gpio pwm_lpss_platform pwm_lpss ecdh_generic mac_hid sch_fq_codel ib_iser rdma_cm iw_cm ib_cm ib_core iscsi_tcp libiscsi_tcp libiscsi scsi_transport_iscsi ip_tables x_tables autofs4 btrfs zstd_compress raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077360] đột kích0 tuyến tính đa tuyến tính hid_generic usbhid i915 igb drm_kms_helper dca ahci i2c_algo_bit crct10dif_pclmul syscopyarea crc32_pclmul sysfillrect sysimgblt ghash_clmouse pphi_intel ptp cryptdif_pclmul syscopyarea crc32_pclmul sysfillrect sysimgblt ghash_clmouse pphi_intel ptp cryptd fb_sys_forscore i2 libah dcbahd lidforscore
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077381] CPU: 2 PID: 22792 Comm: uwsgi Tainted: G B D W 4.15.0-151-generic #157-Ubuntu
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077384] Tên phần cứng: Winmate Inc. IB3S/IB32S, BIOS V210 06/05/2019
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077389] RIP: 0010:down_write+0x1f/0x40
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077392] RSP: 0018:ffffb4e7018cfd10 EFLAGS: 00010246
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077396] RAX: ffff994c94603766 RBX: ffff994c94603766 RCX: 0000000000027f57
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077398] RDX: ffffffff00000001 RSI: 0000000001000200 RDI: ffff994c94603766
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077401] RBP: ffffb4e7018cfd18 R08: ffffd4e6ffd292c0 R09: ffff996d60d7e4e0
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077404] R10: 00007f220ffec000 R11: ffff996d70adde00 R12: ffff994c9460375e
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077407] R13: ffff996d54325ec0 R14: ffff994c9460375e R15: ffff996df104f000
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077410] FS: 00007f221338d740(0000) GS:ffff996dffd00000(0000) knlGS:0000000000000000
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077413] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077416] CR2: ffff994c94603766 CR3: 00000000943ba000 CR4: 00000000001006e0
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077419] Gọi Trace:
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077428] anon_vma_clone+0x8f/0x1c0
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077433] anon_vma_fork+0x32/0x130
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077440] copy_ process.part.35+0xfe1/0x1c00
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077446] _do_fork+0xdf/0x400
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077454] ? __do_page_fault+0x2a1/0x4b0
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077460] ? get_unused_fd_flags+0x30/0x40
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077465] SyS_clone+0x19/0x20
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077471] do_syscall_64+0x73/0x130
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077475] entry_SYSCALL_64_after_hwframe+0x41/0xa6
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077479] RIP: 0033:0x7f2211188b7c
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077482] RSP: 002b:00007fff81411ac0 EFLAGS: 00000246 ORIG_RAX: 0000000000000038
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077486] RAX: ffffffffffffffda RBX: 00007fff81411ac0 RCX: 00007f2211188b7c
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077488] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000001200011
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077491] RBP: 00007fff81411b30 R08: 00007f221338d740 R09: 00007f2211750b40
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077494] R10: 00007f221338da10 R11: 0000000000000246 R12: 0000000000000000
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077497] R13: 0000000000000020 R14: 0000000000000000 R15: 0000000001735cf8
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077500] Code: 40 00 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 55 48 89 e5 53 48 89 fb e8 9e d7 ff ff 00 ba 01 00 ff ff ff ff 48 89 d8 <f0> 48 0f c1 10 85 d2 74 05 e8 73 b5 fe ff 65 48 8b 04 25 00 5c
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077534] RIP: down_write+0x1f/0x40 RSP: ffffb4e7018cfd10
Ngày 26 tháng 7 19:46:35 xxxxxxx kernel: [167923.077537] CR2: ffff994c94603766
Ngày 26 tháng 7 19:46:35 kernel xxxxxxx: [167923.077541] ---[ dấu vết kết thúc 4d3c04fc4bbb2b33 ]---
Có những cái khác mà tôi cũng có thể đăng nếu cần.
Tôi cũng thường xuyên thấy điều này khi khởi động:
[ FAILED ]Không thể bắt đầu dịch vụ tên máy chủ
Xem trạng thái systemctl systemd-hostnamed.service để biết chi tiết
...
[ FAILED] Không thể bắt đầu phân giải tên mạng
Xem trạng thái systemctl systemd-resolved.service để biết chi tiết
[ OK ] Đã dừng phân giải tên mạng
[ FAILED] Không thể bắt đầu phân giải tên mạng
Xem trạng thái systemctl systemd-resolved.service để biết chi tiết
[ OK ] Đã dừng phân giải tên mạng
[ FAILED] Không thể bắt đầu phân giải tên mạng
Xem trạng thái systemctl systemd-resolved.service để biết chi tiết
[ OK ] Đã dừng phân giải tên mạng
Chúng tôi đã thấy điều này trên khắp đất nước chỉ trong vòng 5 ngày qua, vì vậy tôi không nghĩ rằng nó liên quan đến Phần cứng hoặc môi trường. Chúng tôi đã không phát hành bất kỳ bản cập nhật nào cho phần mềm của mình trong vài tuần (và một số khách hàng của chúng tôi vẫn bỏ qua các bản cập nhật phần mềm của chúng tôi).
Có ai có bất kỳ suy nghĩ về những gì có thể gây ra điều này và làm thế nào để ngăn chặn nó?
Cảm ơn!
Chỉnh sửa 1:
kết quả của ls -la /khởi động
tổng cộng 143024
drwxr-xr-x 3 gốc gốc 4096 ngày 23 tháng 7 06:35 .
drwxr-xr-x 24 gốc gốc 4096 ngày 22 tháng 7 06:57 ..
-rw-r--r-- 1 gốc gốc 217414 ngày 18 tháng 6 16:49 config-4.15.0-147-generic
-rw-r--r-- 1 root root 217414 20:19 ngày 9 tháng 7 config-4.15.0-151-generic
drwxr-xr-x 5 gốc gốc 4096 ngày 23 tháng 7 06:34 grub
-rw-r--r-- 1 gốc gốc 60458100 ngày 20 tháng 7 20:08 initrd.img-4.15.0-147-generic
-rw-r--r-- 1 gốc gốc 60462046 ngày 23 tháng 7 06:35 initrd.img-4.15.0-151-generic
-rw------- 1 root root 4082393 18 tháng 6 16:49 System.map-4.15.0-147-generic
-rw------- 1 root root 4082629 20:19 ngày 9 tháng 7 System.map-4.15.0-151-generic
-rw------- 1 root root 8449696 18 tháng 6 18:42 vmlinuz-4.15.0-147-generic
-rw------- 1 gốc gốc 8453792 9 tháng 7 20:23 vmlinuz-4.15.0-151-generic
kết quả của miễn phí -h
tổng số buff/bộ đệm được chia sẻ miễn phí đã sử dụng hiện có
Bộ nhớ: 3.7G 165M 3.2G 6.7M 435M 3.4G
Hoán đổi: 0B 0B 0B
hoán đổi -s
không mang lại kết quả
kết quả của sysctl vm.swappiness
vm.swappiness = 60
Chỉnh sửa 2:
Tìm thấy báo cáo lỗi này liên quan đến hạt nhân -151: https://bugs.launchpad.net/ubuntu/+source/linux/+orms/1938013
Tôi cũng lấy ra một đơn vị cũ và kiểm tra kỹ lưỡng nó trên 4.15.0-142-generic. Sau đó, tôi đã cập nhật nó lên -151 và có thể gây ra lỗi khi sử dụng nmcli để thử kết nối wifi. Sau khi khởi động lại thành -142, tôi không thể gây ra lỗi nữa. Tôi vẫn còn nhiều thử nghiệm phải làm trên thiết bị ban đầu và sẽ đăng khi hoàn thành.