Cài đặt
- Ubuntu 20.04
- Dell PowerEdge R820
- [PERC H710] 2x Ổ đĩa ảo (Khởi động RAID-1, Ổ đĩa làm việc RAID-0)
- Mọi thứ đều ổn trong 6 tháng
- Thậm chí không có tiền lệ, chỉ đột nhiên, lái xe đầy đủ.
Chi tiết...
Máy này được sử dụng để vẽ Chia (tiền điện tử) - nó đã hoạt động được nhiều tháng mà không gặp sự cố.
Tôi nhận thấy quá trình vẽ sơ đồ bị lỗi (bladebit) - điều này khá hiếm gặp, có thể xảy ra 2 tháng một lần - vì vậy tôi đã khởi động lại nó và ngay lập tức bắt đầu nhận được thiết bị đầy đủ
các loại lỗi.
Tôi bắn ra một cách nhanh chóng df -h
để xem những gì đang xảy ra và nhận được điều này:
Kích thước hệ thống tệp được sử dụng Sẵn có Sử dụng % Được gắn trên
udev 252G 0 252G 0%/dev
tmpfs 51G 2,9M 51G 1%/lần chạy
/dev/sda2 549G 512G 8,7G 99%/
tmpfs 252G 4.0K 252G 1%/dev/shm
tmpfs 5,0M 0 5,0M 0%/chạy/khóa
tmpfs 252G 0 252G 0% /sys/fs/cgroup
/dev/sda1 511M 5,3M 506M 2%/boot/efi
tmpfs 51G 0 51G 0%/chạy/người dùng/1000
<... BÉO...>
/dev/sda2
là ổ đĩa khởi động - nó thực sự là Đĩa ảo RAID-1 (2 đĩa) được xử lý bởi thẻ RAID H710 trong máy chủ, nhưng tôi không nghĩ điều đó có liên quan lắm.
THÔNG THƯỜNG ổ đĩa này đã đầy 3%, nó chỉ cài đặt Ubuntu Server 20.04 có khả năng khởi động trên đó và không có gì khác.
Tôi đã phải xóa tệp tmp trong thư mục gốc và một số tệp rác khác để giải phóng đủ dung lượng để mọi thứ hoạt động trở lại, nhưng nó sắp đầy.
Chẳng hạn, tôi đã làm theo vô số mẹo "tìm tệp lớn nhất trên máy chủ của bạn" từ đây và trên web cái này, với lệnh sudo du -a / 2>/dev/null | sắp xếp -n -r | đầu -n 20
trở về:
$ sudo du -a / 2>/dev/null | sắp xếp -n -r | đầu -n 20
[sudo] mật khẩu cho người dùng:
1010830919685 /
1010823681740 /mnt
<...SNIP...>
Ok vì vậy một cái gì đó rất lớn đang ngồi trong /
rõ ràng? đơn giản ls
cho thấy không có gì quan tâm ở đó:
$ ls -lFa /
tổng số 84
drwxr-xr-x 20 gốc gốc 4096 ngày 12 tháng 1 17:45 ./
drwxr-xr-x 20 gốc gốc 4096 ngày 12 tháng 1 17:45 ../
lrwxrwxrwx 1 root root 7 ngày 24 tháng 8 08:41 bin -> usr/bin/
drwxr-xr-x 4 gốc gốc 4096 Ngày 6 tháng 1 06:22 khởi động/
drwxr-xr-x 2 gốc gốc 4096 ngày 28 tháng 9 14:04 cdrom/
drwxr-xr-x 21 gốc gốc 6920 ngày 5 tháng 1 16:05 dev/
drwxr-xr-x 105 gốc gốc 4096 ngày 5 tháng 1 01:54, v.v./
drwxr-xr-x 3 gốc gốc 4096 ngày 28 tháng 9 14:18 trang chủ/
lrwxrwxrwx 1 root root 7 ngày 24 tháng 8 08:41 lib -> usr/lib/
lrwxrwxrwx 1 gốc gốc 9 ngày 24 tháng 8 08:41 lib32 -> usr/lib32/
lrwxrwxrwx 1 gốc gốc 9 ngày 24 tháng 8 08:41 lib64 -> usr/lib64/
lrwxrwxrwx 1 gốc gốc 10 ngày 24 tháng 8 08:41 libx32 -> usr/libx32/
drwx------ 2 gốc gốc 16384 ngày 28 tháng 9 14:03 bị mất+tìm thấy/
drwxr-xr-x 2 gốc root 4096 ngày 24 tháng 8 08:42 media/
-rw-r--r-- 1 gốc gốc 6678 ngày 9 tháng 1 00:59 MegaSAS.log
drwxr-xr-x 64 root root 4096 Ngày 5 tháng 1 01:48 mnt/
drwxr-xr-x 3 root root 4096 30 tháng 11 18:14 opt/
dr-xr-xr-x 1356 root root 0 ngày 3 tháng 1 04:40 proc/
drwx------- 7 root root 4096 30 tháng 11 18:07 root/
drwxr-xr-x 34 root root 1100 Ngày 12 tháng 1 08:04 chạy/
lrwxrwxrwx 1 root root 8 ngày 24 tháng 8 08:41 sbin -> usr/sbin/
drwxr-xr-x 9 gốc gốc 4096 ngày 28 tháng 9 22:06 chụp nhanh/
drwxr-xr-x 2 gốc gốc 4096 ngày 24 tháng 8 08:42 srv/
dr-xr-xr-x 13 gốc gốc 0 ngày 3 tháng 1 04:40 sys/
drwxrwxrwt 13 gốc gốc 4096 ngày 12 tháng 1 17:15 tmp/
drwxr-xr-x 15 gốc gốc 4096 ngày 24 tháng 8 08:46 usr/
drwxr-xr-x 13 gốc gốc 4096 ngày 24 tháng 8 08:47 var/
sử dụng sudo ncdu -x /
(liên kết) cho thấy không có gì thú vị đủ kỳ lạ:
2.4 GiB [##########] /usr
1,5 GiB [###### ] /var
732,5 MiB [## ] /nhà
202,8 MiB [ ]/khởi động
5,5 MiB [ ] /opt
5.4 MiB [ ] /vv
1,9 MiB [ ] /gốc
168,0 KiB [ ] /tmp
<...SNIP...>
~510GB dung lượng đã sử dụng này nằm ở đâu?
bắn ra một sudo lsof | đã xóa grep
để xem liệu có tệp khổng lồ nào đang được giữ hay không, hãy đưa cho tôi cái này:
systemd-j
unattende 3932 root 3w REG 8,2 113 5246631 /var/log/unattended-upgrades/unattended-upgrades-shutdown.log.1 (đã xóa)
unattende 3932 3943 gmain root 3w REG 8,2 113 5246631 /var/log/unattended-upgrades/unattended-upgrades-shutdown.log.1 (đã xóa)
Được rồi, nó đang giữ một tệp nhật ký 134mb, nhưng điều đó vẫn không giải thích được tại sao đột nhiên có 510GB ổ đĩa bị chiếm dụng.
Tôi cũng đã thử một số tìm kiếm bổ sung, như cái này, và kết quả là không có gì hữu ích cả.
cuối cùng tôi đã sử dụng megacli
để kiểm tra dữ liệu SMART trên 2 ổ đĩa trong mảng RAID-0 và chúng có 0 lỗi được báo cáo nên có vẻ như mảng đó không bị hỏng.
Bất kỳ ý tưởng hoặc thủ thuật đào bổ sung nào tôi có thể cố gắng tìm ra thứ gì đang hút không gian đó?
CẬP NHẬT #1 - Tôi nhận thấy khi tôi gõ hàng đầu
điều đó buff/bộ đệm
gần như chính xác bằng kích thước của GB đã được sử dụng trên ổ đĩa gốc. Tôi biết rằng không gian không được tính là được sử dụng
, nhưng tôi quyết định nhanh chóng sa thải:
Sudo sh -c "/usr/bin/echo 3 > /proc/sys/vm/drop_caches"
mất khoảng 3 phút để chạy nhưng cuối cùng đã quay trở lại - hàng đầu
bây giờ cho thấy buff/bộ đệm
dưới dạng <1k, NHƯNG df -h
cho thấy không có thay đổi trong việc sử dụng đĩa.
Tôi đã hy vọng đó là một tệp bộ đệm bí ẩn trên đĩa hoặc thứ gì đó tương tự.