Điểm:0

Container không khởi động được sau Nvidia Config

lá cờ ky

Tôi đã làm theo điều này hướng dẫn chính thức để cho phép cụm k8s kim loại trần có Quyền truy cập GPU. Tuy nhiên tôi đã nhận được lỗi trong khi làm như vậy.

Kubernetes 1.21 chứa 1.4.11 và Ubuntu 20.04.3 LTS (GNU/Linux 5.4.0-91-generic x86_64).

Nvidia Driver được cài đặt sẵn trên System OS với phiên bản 495 Headless

Sau khi dán cấu hình sau vào bên trong /etc/containerd/config.toml và thực hiện khởi động lại dịch vụ, containerd sẽ không khởi động được với thoát 1.

chứa Config.toml

nhật ký hệ thống đây.

# vị trí dữ liệu liên tục
gốc = "/var/lib/containerd"
# thông tin trạng thái thời gian chạy
trạng thái = "/ run/containerd"

# Kubernetes không sử dụng trình quản lý khởi động lại containerd.
bị vô hiệu hóa = ["khởi động lại"]

# CẤU HÌNH NVIDIA BẮT ĐẦU TẠI ĐÂY

phiên bản = 2
[bổ sung]
  [plugin."io.containerd.grpc.v1.cri"]
    [plugin."io.containerd.grpc.v1.cri".containerd]
      default_runtime_name = "nvidia"

      [plugins."io.containerd.grpc.v1.cri".containerd.runtimes]
        [plugin."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]
          đặc quyền_không có_host_devices = sai
          runtime_engine = ""
          runtime_root = ""
          runtime_type = "io.containerd.runc.v2"
          [plugin."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]
            BinaryName = "/usr/bin/nvidia-container-runtime"

# CẤU HÌNH NVIDIA KẾT THÚC TẠI ĐÂY

[gỡ lỗi]
  cấp = ""

[grpc]
  max_recv_message_size = 16777216
  max_send_message_size = 16777216

[plugins.linux]
  shim = "/usr/bin/containerd-shim"
  thời gian chạy = "/usr/bin/runc"

Tôi có thể xác nhận rằng Trình điều khiển Nvidia phát hiện GPU (Nvidia GTX 750Ti) bằng cách chạy nvidia-smi và nhận được đầu ra sau

+--------------------------------------------- ----------------------------- +
| Phiên bản trình điều khiển NVIDIA-SMI 495.44: 495.44 Phiên bản CUDA: 11.5 |
|-------------------------------------+----------------- -----+----------------------+
| Tên GPU Persistence-M| Bus-Id Disp.A | Dễ bay hơi Uncorr. ECC |
| Fan Temp Perf Pwr:Sử dụng/Giới hạn| Sử dụng bộ nhớ | GPU-Util Compute M. |
| | | MIG M. |
|=================================================== =====+======================|
| 0 NVIDIA GeForce ... Tắt | 00000000:02:00.0 Tắt | Không áp dụng |
| 34% 34C P8 1W/38W | 0MiB / 2000MiB | 0% mặc định |
| | | Không áp dụng |
+------------------------------------+----------------- -----+----------------------+

+--------------------------------------------- ----------------------------- +
| Quy trình: |
| GPU GI CI Loại PID Tên quy trình Bộ nhớ GPU |
| ID ID Sử dụng |
|================================================= ============================|
| Không tìm thấy quy trình đang chạy nào |
+--------------------------------------------- ----------------------------- +

sửa đổi config.toml đã làm cho nó hoạt động.

lá cờ in
Hai điều: bạn có thể sẽ nhận được trợ giúp tốt hơn nếu bạn đăng nhật ký từ vùng chứa đã thoát khác không, vì các chi tiết quan trọng.Thứ hai, không sử dụng 1.4.11, đã có bản sửa lỗi bảo mật trong [1.4.12](https://github.com/containerd/containerd/releases/tag/v1.4.12)
XPLOT1ON avatar
lá cờ ky
@mdaniel rằng bạn đã thông báo về lỗ hổng như vậy, tôi đã cập nhật tất cả các nút. Ngoài ra, tôi đã cập nhật bài đăng ở trên bằng nhật ký hệ thống.
Điểm:2
lá cờ in

Tốt nhất tôi có thể nói, nó là thế này:

Ngày 02 tháng 12 03:15:36 k8s-node0 containerd[2179737]: containerd: URI plugin bị vô hiệu hóa không hợp lệ "khởi động lại" mong đợi io.containerd.x.vx

Ngày 02 tháng 12 03:15:36 k8s-node0 systemd[1]: containerd.service: Quá trình chính đã thoát, mã=đã thoát, trạng thái=1/THẤT BẠI

Vì vậy, nếu bạn biết rôi rằng khởi động lại-ish trên thực tế đã được bật, bạn sẽ cần theo dõi cú pháp URI mới của nó, nhưng tôi thực sự khuyên bạn chỉ nên nhận xét đoạn thơ đó hoặc tiếp tục với bị vô hiệu hóa = [], từ vai trò ansible được chứa chúng tôi sử dụng không đề cập đến bất cứ điều gì về "khởi động lại" và có = [] hương vị


Về mặt tiếp tuyến, bạn có thể muốn hạn chế tạp chí lời kêu gọi trong tương lai chỉ cần nhìn vào containerd.service, vì nó sẽ ném ra ngoài rất nhiều của văn bản đó là một phân tâm: tạp chíctl -u containerd.service và bạn thậm chí có thể giới hạn nó chỉ trong một vài dòng cuối cùng, điều này đôi khi có thể giúp ích nhiều hơn: tạp chíctl -u containerd.service --lines=250

XPLOT1ON avatar
lá cờ ky
Cảm ơn bạn đã trả lời rộng rãi, tôi đã thử đặt `disabled_plugins` làm danh sách trống. Nó báo cho tôi một lỗi khác `containerd: URI khóa plugin không hợp lệ "linux" mong đợi io.containerd.x.vx`. Tôi đã đính kèm một `config.toml` được chứa hoàn chỉnh trong bài đăng gốc. Nếu bạn có thể có một cái nhìn đó sẽ là tuyệt vời.
lá cờ in
Vâng, có vẻ như đó là cùng một vấn đề; `linux` với tư cách là một cái tên không đủ tiêu chuẩn rõ ràng là kiểu cũ, vì vậy những gì bạn có thể muốn là `[plugins."io.containerd.runtime.v1.linux"]` giống như bạn thấy với các thành viên `[plugins]` ở đầu tệp và [như được hiển thị trong mẫu mà tôi đã liên kết đến](https://github.com/particuleio/symplegma-containerd/blob/v1.4.3-rel.0/templates/config.toml.j2# L132)
XPLOT1ON avatar
lá cờ ky
Cảm ơn sự giúp đỡ, giờ đây tôi có thể khởi động containerd với cấu hình tích hợp dựa trên tài liệu nvidia. Đối với giới thiệu trong tương lai: Tôi đã cập nhật bài đăng gốc của mình cho config.toml được cập nhật
lá cờ in
Tôi rất vui khi nghe điều đó và tôi luôn vui khi đó là một điều gì đó đơn giản và tôi chúc bạn may mắn trên hành trình chạy GPU trong k8s! Vui lòng xem xét đặt nội tuyến cấu hình trong câu hỏi của bạn, vì việc liên kết với các trang web bên ngoài có nguy cơ khiến chúng trở thành 404 cho các thế hệ sau

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.