Điểm:1

CPU chạy nóng hơn khi không hoạt động khi sử dụng tham số khởi động grub

lá cờ pl

Vì vậy, máy tính xách tay của tôi đã ngẫu nhiên bị "đóng băng" (Hệ thống hoàn toàn không phản hồi, chuột bị treo, đồng hồ không chạy tiếp, không có lệnh bàn phím nào có tác dụng và cách duy nhất để thoát khỏi tình trạng này là khó khởi động lại bằng nút nguồn vật lý), từ bất cứ nơi nào trong vài phút đến vài giờ sử dụng máy tính của tôi.

Vì vậy, một cách tự nhiên, tôi đã điều tra vấn đề và cố gắng tìm cách khắc phục.Sau khi xem nhật ký kernel, tôi thấy rằng các sự kiện được ghi cuối cùng trước khi đóng băng là một số "Lỗi phần cứng":

kernel: mce: [Lỗi phần cứng]: Các sự kiện kiểm tra máy đã được ghi lại

Vì vậy, tôi tìm kiếm nó và cố gắng tìm giải pháp. Và tôi đã làm, tôi tìm thấy cái này bưu kiện. Về cơ bản, điều này cho tôi biết thêm một vài tham số khởi động. Và nó đã khắc phục được sự cố, tôi chưa ghi lại bất kỳ Lỗi phần cứng nào nữa hoặc bất kỳ sự cố đóng băng ngẫu nhiên nào kể từ đó. Đây là các tham số khởi động:

noapic pci=gán-busses apicmaintimer idle=poll reboot=cold,hard

Nhưng vấn đề là, bây giờ máy tính xách tay của tôi đang chạy không tải ở nhiệt độ cao hơn khi sử dụng các thông số khởi động này. Khoảng 70 độ C, thay vì 35-40. Bây giờ, rõ ràng là tôi đã kiểm tra System Monitor để xem liệu có thứ gì chiếm dụng CPU hay không, nhưng không có gì. Nó đang sử dụng bất cứ nơi nào trong khoảng từ 0 đến 3% mức sử dụng CPU trên cả 4 luồng, không có gì khác thường.

Và tôi biết các thông số khởi động gây ra sự cố này, vì tôi đã thử gỡ bỏ chúng và sau khi khởi động lại, quạt không quay to như vậy và không hoạt động ở nhiệt độ bình thường. Tuy nhiên, Lỗi phần cứng đã quay trở lại và tình trạng đóng băng ngẫu nhiên cũng vậy.

Tôi là người mới làm quen với công cụ Linux, vì vậy tôi thực sự không biết các tham số khởi động này làm gì. Ai đó có kinh nghiệm có thể cho tôi biết họ đang làm gì không và tại sao họ lại khiến CPU của tôi không hoạt động nóng hơn nhiều?

CHỈNH SỬA #1

Vì vậy, nhờ sự giúp đỡ của matigo và Doug, tôi được biết rằng nhàn rỗi = thăm dò ý kiến tham số đang vô hiệu hóa hệ thống nhàn rỗi cho CPU, điều này rõ ràng làm cho CPU chạy nóng hơn và tạo ra nhiều nhiệt thải hơn.

Khi loại bỏ tham số khởi động đó, Lỗi phần cứng sẽ quay trở lại.

Vì vậy, lỗi đóng băng và Lỗi phần cứng của tôi dường như có liên quan đến cách CPU chuyển đổi giữa các trạng thái không hoạt động.

CPU của tôi là một Intel Core i7-7500U

Đây là đầu ra từ việc chạy grep . /sys/devices/system/cpu/cpu0/cpuidle/state*/name:

/sys/devices/system/cpu/cpu0/cpuidle/state0/name:POLL
/sys/devices/system/cpu/cpu0/cpuidle/state1/name:C1
/sys/devices/system/cpu/cpu0/cpuidle/state2/name:C1E
/sys/devices/system/cpu/cpu0/cpuidle/state3/name:C3
/sys/devices/system/cpu/cpu0/cpuidle/state4/name:C6
/sys/devices/system/cpu/cpu0/cpuidle/state5/name:C7s
/sys/devices/system/cpu/cpu0/cpuidle/state6/name:C8
/sys/devices/system/cpu/cpu0/cpuidle/state7/name:C9
/sys/thiết bị/hệ thống/cpu/cpu0/cpuidle/state8/tên:C10

Vì vậy, về cơ bản, điều tôi cần trợ giúp là điều này, để loại bỏ các Lỗi và sự cố phần cứng này mà không vô hiệu hóa hoàn toàn hệ thống không hoạt động của CPU, nếu có thể.

lá cờ in
Bạn đang sử dụng phiên bản Ubuntu nào? Tôi gặp vấn đề tương tự trên Lenovo W541 với 16.04 và 18.04. Việc nâng cấp lên 20.04 đã giảm nhiệt độ không hoạt động xuống 30 độ và đồng thời cải thiện khả năng tản nhiệt của SSD.
B.Tibell avatar
lá cờ pl
@matigo Tôi đang sử dụng Zorin OS 16 dựa trên Ubuntu 20.04.3 và tôi có HP 17x115dx.Tôi đã thử một số bản phân phối dựa trên Ubuntu nhưng tôi đã gặp sự cố đóng băng này với tất cả chúng, bao gồm Ubuntu, Lubuntu, Zorin OS, Linux Mint và Pop OS.
lá cờ in
Zorin rất lạc đề ở đây, nhưng các tùy chọn khởi động đó đang giết chết khả năng quản lý việc sử dụng năng lượng nhàn rỗi của hệ thống của bạn một cách hiệu quả. Bạn có thể muốn [đọc phần này](https://www.kernel.org/doc/html/v5.0/admin-guide/pm/cpuidle.html) và quyết định xem các tham số khởi động có xứng đáng hay không ...
B.Tibell avatar
lá cờ pl
Được rồi.. Cảm ơn bạn, bạn có biết điều gì có thể gây ra lỗi phần cứng không và tại sao các tham số khởi động này lại giúp ngăn chặn chúng?
Doug Smythies avatar
lá cờ gn
Vui lòng chỉnh sửa câu hỏi của bạn và thêm tên của các trạng thái nhàn rỗi của bạn. Làm `grep . /sys/devices/system/cpu/cpu0/cpuidle/state*/name`. Cũng thêm bộ xử lý làm và mô hình.
Điểm:0
lá cờ gn

tham số khởi động nhàn rỗi = thăm dò ý kiến về cơ bản vô hiệu hóa hệ thống nhàn rỗi, hiển thị không hoạt động dưới dạng chu kỳ quay không hoạt động. Vì vậy, vâng, bạn sẽ mong đợi nhiều nhiệt thải hơn vì CPU không bao giờ đi ngủ.

Đây là một ví dụ từ máy chủ thử nghiệm của tôi, sử dụng turbostat:

doug@s19:~$ sudo turbostat --Summary --quiet --show Busy%,Bzy_MHz,IRQ,PkgWatt,PkgTmp,RAMWatt,GFXWatt,CorWatt --interval 15
Bận% Bzy_MHz IRQ PkgTmp PkgWatt CorWatt GFXWatt RAMWatt
0,01 938 558 36 1,34 0,68 0,00 0,89
0,02 800 455 36 1,33 0,67 0,00 0,89 <<< Đã bật tất cả các trạng thái không hoạt động
60.14 4799 109298 47 29.48 28.82 0.00 0.89 <<< mẫu chuyển tiếp
99,76 4800 180297 47 47,24 46,59 0,00 0,89 <<< Tất cả các trạng thái nhàn rỗi bị vô hiệu hóa, ngoại trừ thăm dò ý kiến.
99,76 4800 180311 49 47,65 46,99 0,00 0,89
99,76 4800 180305 49 47,82 47,17 0,00 0,89

Lưu ý: trình điều khiển mở rộng tần số CPU intel_pstate "thấy" các CPU đang bận, nhưng top thì không:

hàng đầu - 19:23:43 lên 7:14, 3 người dùng, tải trung bình: 0,00, 0,00, 0,00
Nhiệm vụ: tổng cộng 214, 1 đang chạy, 213 đang ngủ, 0 đã dừng, 0 zombie
%Cpu0 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu1 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu2 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu3 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu4 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu5 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu6 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu7 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu8 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu9 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu10 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
%Cpu11 : 0,0 us, 0,0 sy, 0,0 ni,100,0 id, 0,0 wa, 0,0 hi, 0,0 si, 0,0 st
MiB Mem : tổng cộng 31936,7, 31137,0 miễn phí, 312,3 đã sử dụng, 487,5 buff/cache
Hoán đổi MiB: tổng cộng 2048,0, 2048,0 miễn phí, 0,0 đã sử dụng. 31227.9 có sẵn Mem
B.Tibell avatar
lá cờ pl
Sau khi xóa tham số `idle=poll`, các lỗi Phần cứng đã quay trở lại và có lẽ là sự cố đóng băng ngẫu nhiên. Chính xác thì những lỗi Phần cứng này có ý nghĩa gì? Và có cách nào khác để tôi có thể loại bỏ chúng mà không vô hiệu hóa hệ thống không hoạt động không?
Doug Smythies avatar
lá cờ gn
Bạn có bao nhiêu trạng thái nhàn rỗi? Làm `grep . /sys/devices/system/cpu/cpu0/cpuidle/state*/disable`. Sau đó bắt đầu tắt từng cái một để xem MCE có biến mất không. Làm (nói sâu nhất là 7) `echo 1 | sudo tee /sys/devices/system/cpu/cpu*/cpuidle/state7/disable`. Ý nghĩa chính xác của MCE có thể khó xác định. Những gì CPU thực hiện và mô hình?
B.Tibell avatar
lá cờ pl
Tôi có 8 trạng thái nhàn rỗi. CPU là Intel Core i7-7500U.
Doug Smythies avatar
lá cờ gn
Tôi sẽ thử: Tắt trạng thái không hoạt động 2; Nếu vẫn không được, hãy tắt tham số khởi động HWP (intel_pstate=no_hwp).
B.Tibell avatar
lá cờ pl
Đã thử cả hai và các lỗi vẫn hiển thị. Tôi nhận thấy rằng các lỗi có xu hướng xuất hiện SAU KHI tôi dừng một tác vụ sử dụng nhiều CPU. Và điều đó cũng phù hợp với thời điểm tôi bị đóng băng, chẳng hạn như ngay sau khi thoát khỏi trò chơi hoặc tác vụ sử dụng nhiều tài nguyên khác.
B.Tibell avatar
lá cờ pl
Vì vậy, tôi đã kiểm tra xem việc vô hiệu hóa trạng thái không hoạt động hoặc thêm tham số khởi động (tất nhiên là sau khi khởi động lại) bằng cách chạy `stress --cpu 4` trong vài phút rồi kết thúc, nhưng sau khi kiểm tra tệp nhật ký, Lỗi phần cứng mce xuất hiện ngay sau khi tôi kết thúc bài kiểm tra căng thẳng.
Doug Smythies avatar
lá cờ gn
Thử nghiệm với việc vô hiệu hóa trạng thái nhàn rỗi. Ví dụ, tất cả chúng từ một số cấp độ và sâu hơn.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.