Điểm:0

Cách hiểu sự cố kernel với vmcore-dmesg.txt và kexec-dmesg.log

lá cờ cn

Tôi có một máy chủ đang chạy CentOS 8, kernel bị hỏng vào một ngày nào đó và tôi đã tìm thấy ba tệp sau trong /var/sụp đổ: vmcore, vmcore-dmesg.txt, và kexec-dmesg.log.

lần đầu tiên tôi nhìn vào vmcore-dmesg.txt, cung cấp cho tôi thông tin sau ở cuối

[291071.552140] {2}[Lỗi phần cứng]: Lỗi phần cứng từ Nguồn lỗi phần cứng chung APEI: 1
[291071.552141] {2}[Lỗi phần cứng]: mức độ nghiêm trọng của sự kiện: nghiêm trọng
[291071.552141] {2}[Lỗi phần cứng]: Lỗi 0, loại: nghiêm trọng
[291071.552142] {2}[Lỗi phần cứng]: section_type: Lỗi PCIe
[291071.552142] {2}[Lỗi phần cứng]: port_type: 4, cổng gốc
[291071.552142] {2}[Lỗi phần cứng]: phiên bản: 3.0
[291071.552143] {2}[Lỗi phần cứng]: lệnh: 0x0547, trạng thái: 0x4010
[291071.552143] {2}[Lỗi phần cứng]: device_id: 0000:16:01.0
[291071.552143] {2}[Lỗi phần cứng]: vị trí: 82
[291071.552144] {2}[Lỗi phần cứng]: secondary_bus: 0x18
[291071.552144] {2}[Lỗi phần cứng]: nhà cung cấp_id: 0x8086, device_id: 0x2031
[291071.552145] {2}[Lỗi phần cứng]: class_code: 000406
[291071.552145] {2}[Lỗi phần cứng]: bridge: secondary_status: 0x0000, control: 0x0013
[291071.552145] {2}[Lỗi phần cứng]: aer_uncor_status: 0x00000020, aer_uncor_mask: 0x00100000
[291071.552146] {2}[Lỗi phần cứng]: aer_uncor_severity: 0x00062030
[291071.552146] {2}[Lỗi phần cứng]: Tiêu đề TLP: 00000000 00000000 00000000 00000000
[291071.552146] Kernel hoảng loạn - không đồng bộ hóa: Lỗi phần cứng nghiêm trọng!
[291071.552147] CPU: 0 PID: 0 Comm: swapper/0 Kdump: đã tải Not tainted 4.18.0-305.3.1.el8.x86_64 #1
[291071.552147] Tên phần cứng: Được điền bởi O.E.M.Sẽ được lấp đầy bởi O.E.M./EPC621D8A, BIOS P2.10 03/04/2019
[291071.552148] Theo dõi cuộc gọi:
[291071.552148] <NMI>
[291071.552148] dump_stack+0x5c/0x80
[291071.552149] hoảng loạn+0xe7/0x2a9
[291071.552149] __ghes_panic.cold.32+0x21/0x21
[291071.552149] ghes_notify_nmi+0x273/0x310
[291071.552149] nmi_handle+0x63/0x110
[291071.552150] default_do_nmi+0x49/0x100
[291071.552150] do_nmi+0x17e/0x1e0
[291071.552150] end_repeat_nmi+0x16/0x6f
[291071.552151] RIP: 0010:intel_idle+0x6b/0xb0
[291071.552151] Mã số: 40 5c 01 00 48 89 d1 0f 01 c8 48 8b 00 a8 08 75 19 e9 07 00 00 00 0f 00 2d 1e 01 55 00 c1 ee 18 b9 01 00 00 090f 89 f0 48 8b 04 25 40 5c 01 00 f0 80 60 02 df f0 83 44 24 fc 00 48 8b
[291071.552152] RSP: 0018:ffffffff8fe03e40 EFLAGS: 00000002
[291071.552152] RAX: 0000000000000020 RBX: ffffffff8ff30ba8 RCX: 0000000000000001
[291071.552153] RDX: 0000000000000000 RSI: 0000000000000020 RDI: 0000000000000003
[291071.552153] RBP: ffff9e4a20835ad8 R08: 0000000000000002 R09: 0000000000029700
[291071.552154] R10: 0002cd7f37820a74 R11: ffff9e4a20828be4 R12: ffffffff8ff30a40
[291071.552154] R13: 0000000000000003 R14: 0000000000000003 R15: 0000000000000003
[291071.552154] ? intel_idle+0x6b/0xb0
[291071.552154] ? intel_idle+0x6b/0xb0
[291071.552155] </NMI>
[291071.552155] cpuidle_enter_state+0x87/0x3c0
[291071.552155] cpuidle_enter+0x2c/0x40
[291071.552156] do_idle+0x234/0x260
[291071.552156] cpu_startup_entry+0x6f/0x80
[291071.552156] start_kernel+0x518/0x538
[291071.552157] secondary_startup_64_no_verify+0xc2/0xcb

sử dụng lspci, Tôi có thể tìm thấy 0000:16.01.016:01.0 Cầu PCI: Intel Corporation Sky Lake-E PCI Express Root Port B (rev 02), có vẻ là gốc PCI-E. và

lspci -s 16:01.0 -tvv
0000:16:01.0-[18-1b]----00.0-[19-1b]----03.0-[1a-1b]--+-00.0 Intel Corporation Ethernet Connection X722 cho 1GbE
                                                      +-00.1 Intel Corporation Ethernet Connection X722 cho 1GbE
                                                      +-00.2 Intel Corporation Ethernet Connection X722 cho 1GbE
                                                      \-00.3 Kết nối Ethernet của Tập đoàn Intel X722 cho 1GbE

Sau đó tôi nhìn vào kexec-dmesg.log tập tin, trong đó nói

[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] Trình quản lý bộ nhớ không sạch trong quá trình gỡ xuống.
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] CẢNH BÁO: CPU: 0 PID: 399 tại trình điều khiển/gpu/drm/drm_mm.c:999 drm_mm_takedown+0x1f/0x30 [drm]
[Thu Jun 10 20:02:45 2021] Modules linked in: amdgpu(+) sd_mod t10_pi sg iommu_v2 gpu_sched i2c_algo_bit ttm drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops crc32c_intel drm ahci libahci uas libata usb_storage dm_mirror dm_region_hash dm_log dm_mod fuse overlay squashfs loop
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] CPU: 0 PID: 399 Comm: systemd-udevd Tainted: G W --------- - - 4.18.0-305.3.1.el8.x86_64 #1
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] Tên phần cứng: Sẽ được lấp đầy bởi O.E.M. Sẽ được lấp đầy bởi O.E.M./EPC621D8A, BIOS P2.10 03/04/2019
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] RIP: 0010:drm_mm_takedown+0x1f/0x30 [drm]
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] Mã số: f6 c3 48 8d 41 c0 eb bb 0f 1f 00 0f 1f 44 00 00 48 8b 47 38 48 83 c7 38 48 39 c7 75 01 c3 48 c7 c7 58 57 1b c0 e8 da b6 f6 c0 <0f> 0b c3 66 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 00 0f 1f 44 00 00
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] RSP: 0018:ffffc90000747a10 EFLAGS: 00010282
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] RAX: 0000000000000000 RBX: ffff88805d44caf0 RCX: ffffffff8265f1c8
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] RDX: 0000000000000001 RSI: 0000000000000096 RDI: 0000000000000246
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] RBP: ffff888050e65030 R08: 00000000000005e6 R09: 0000000000aaaaaa
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] R10: 0000000000000000 R11: ffffc900009e0320 R12: ffff88805d44ca00
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] R13: ffff888050e64f68 R14: 0000000000000000 R15: 0000000000000000
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] FS: 00007f16a3901180(0000) GS:ffff88805ea00000(0000) knlGS:0000000000000000
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] CR2: 0000564d0235b008 CR3: 000000005d5b6002 CR4: 00000000007706b0
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] DR3: 0000000000000000 DR6: 00000000ffffe0ff0 DR7: 0000000000000400
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] PKRU: 55555554
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] Theo dõi cuộc gọi:
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] amdgpu_gtt_mgr_fini+0x2d/0x80 [amdgpu]
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] ttm_bo_clean_mm+0xa8/0xc0 [ttm]
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] amdgpu_ttm_fini+0x98/0xe0 [amdgpu]
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] amdgpu_bo_fini+0xe/0x30 [amdgpu]
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] gmc_v9_0_sw_fini+0x59/0xa0 [amdgpu]
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] amdgpu_device_fini+0x297/0x4af [amdgpu]
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] amdgpu_driver_unload_kms+0x3e/0x70 [amdgpu]
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] amdgpu_driver_load_kms+0x122/0x2a0 [amdgpu]
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] amdgpu_pci_probe+0xd1/0x150 [amdgpu]
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] local_pci_probe+0x41/0x90
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] pci_device_probe+0x105/0x1c0
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] really_probe+0x255/0x4a0
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] driver_probe_device+0x49/0xc0
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] device_driver_attach+0x50/0x60
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] __driver_attach+0x61/0x130
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? device_driver_attach+0x60/0x60
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] bus_for_each_dev+0x77/0xc0
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? klist_add_tail+0x3b/0x70
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] bus_add_driver+0x14d/0x1e0
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? 0xffffffffc07d3000
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] driver_register+0x6b/0xb0
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? 0xffffffffc07d3000
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] do_one_initcall+0x46/0x1c3
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? do_init_module+0x22/0x220
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? kmem_cache_alloc_trace+0x131/0x270
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] do_init_module+0x5a/0x220
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] load_module+0x14c5/0x17f0
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? __switch_to_asm+0x35/0x70
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? __switch_to_asm+0x41/0x70
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? __switch_to_asm+0x35/0x70
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? __switch_to_asm+0x41/0x70
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? apic_timer_interrupt+0xa/0x20
[Thứ 5 ngày 10 tháng 6 20:02:45 2021] ? __do_sys_init_module+0x13b/0x180
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] __do_sys_init_module+0x13b/0x180
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] do_syscall_64+0x5b/0x1a0
[Thứ Năm ngày 10 tháng 6 20:02:45 năm 2021] entry_SYSCALL_64_after_hwframe+0x65/0xca
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] RIP: 0033:0x7f16a24df80e
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] Mã: 48 8b 0d 7d 16 2c 00 f7 d8 64 89 01 48 83 c8 ff c3 66 2e 0f 1f 84 00 00 00 00 00 90 f3 0f 1e fa 49 89 ca b8 af 00 00 00 0f 05 <48> 3d 01 f0 ff ff 73 01 c3 48 8b 0d 4a 16 2c 00 f7 d8 64 89 01 48
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] RSP: 002b:00007ffc5a383dd8 EFLAGS: 00000246 ORIG_RAX: 00000000000000af
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] RAX: ffffffffffffffda RBX: 0000558aa33c7ee0 RCX: 00007f16a24df80e
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] RDX: 0000558aa33c85e0 RSI: 00000000009621ec RDI: 0000558aa3def1a0
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] RBP: 0000558aa33c85e0 R08: 0000558aa33c301a R09: 0000000000000003
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] R10: 0000558aa33c3010 R11: 0000000000000246 R12: 0000558aa3def1a0
[Thứ 5 ngày 10 tháng 6 20:02:45 năm 2021] R13: 0000558aa33dabf0 R14: 0000000000020000 R15: 0000000000000000
[Thứ năm ngày 10 tháng 6 20:02:45 năm 2021] ---[ end dấu vết 0950097d77ca3e03 ]---

Điều này dường như liên quan đến trình điều khiển GPU.

Theo hiểu biết của tôi, khi kernel gặp sự cố, kump cố gắng khởi động kernel khác bằng cách sử dụng kexec để đổ hạt nhân bị hỏng. Sau đó, nhật ký đối với tôi giống như một số lỗi phần cứng PCI-E xảy ra khiến nhân chính gặp sự cố và khi kump kernel khởi động, nó lại bị sập do lỗi trình điều khiển GPU. Tôi có hiểu điều này đúng không? Hoặc các bản ghi được hiển thị trong kexec-dmesg.log thực sự là dấu vết ngăn xếp của hạt nhân chính?

Câu hỏi thứ hai của tôi là làm thế nào để hiểu những thông báo lỗi này. Vì có vẻ như chỉ có NIC được kết nối với gốc PCI-E, có vấn đề gì xảy ra với bo mạch chủ/CPU của tôi hay vấn đề có thể xảy ra ở nhân?

Một thông tin bên lề, tôi tìm thấy trong /var/log rằng lỗi sau thường xảy ra mà không làm hỏng kernel

Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: Lỗi phần cứng từ APEI Nguồn lỗi phần cứng chung: 0
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: Nó đã được sửa bởi h/w và không cần thực hiện thêm hành động nào
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: mức độ nghiêm trọng của sự kiện: đã sửa
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: Lỗi 0, loại: đã sửa
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: section_type: Lỗi PCIe
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: port_type: 5, cổng chuyển ngược dòng
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: phiên bản: 3.0
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: lệnh: 0x0147, trạng thái: 0x0010
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: device_id: 0000:18:00.0
Ngày 7 tháng 6 11:12:20 nhân máy chủ cục bộ: {1}[Lỗi phần cứng]: vị trí: 82
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: secondary_bus: 0x19
Ngày 7 tháng 6 11:12:20 nhân máy chủ cục bộ: {1}[Lỗi phần cứng]: nhà cung cấp_id: 0x8086, device_id: 0x37c0
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: class_code: 000406
Ngày 7 tháng 6 11:12:20 kernel localhost: {1}[Lỗi phần cứng]: bridge: secondary_status: 0x2000, control: 0x0013
Ngày 7 tháng 6 11:12:20 kernel localhost: pcieport 0000:18:00.0: aer_status: 0x00003000, aer_mask: 0x00002000
Ngày 7 tháng 6 11:12:20 kernel localhost: pcieport 0000:18:00.0: [12] Hết giờ               
Ngày 7 tháng 6 11:12:20 kernel localhost: pcieport 0000:18:00.0: aer_layer=Lớp liên kết dữ liệu, aer_agent=ID máy phát

ở đâu 18:00.0 là một cầu nối PCI 18:00.0 Cầu PCI: Intel Corporation Device 37c0 (rev 09)

 lspci -s 18:00.0 -tvv
0000:18:00.0-[19-1b]----03.0-[1a-1b]--+-00.0 Intel Corporation Ethernet Connection X722 cho 1GbE
                                      +-00.1 Intel Corporation Ethernet Connection X722 cho 1GbE
                                      +-00.2 Intel Corporation Ethernet Connection X722 cho 1GbE
                                      \-00.3 Kết nối Ethernet của Tập đoàn Intel X722 cho 1GbE

Chúng tôi rất trân trọng bất kỳ sự giúp đỡ nào.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.