Tôi muốn sử dụng tính năng tự động cung cấp nút GKE để tạo nhóm nút có GPU theo yêu cầu (đó là khi tôi bắt đầu Công việc cần tài nguyên GPU).
Đi với hướng dẫn GCP, tôi đã thiết lập một cụm có bật cụm tự động
và tự động cung cấp nút
. NAP đã thiết lập giới hạn cho CPU, Memory và GPU:
giới hạn tài nguyên:
- tối đa: '15'
tối thiểu: '1'
loại tài nguyên: cpu
- tối đa: '150'
tối thiểu: '1'
resourceType: bộ nhớ
- tối đa: '2'
resourceType: nvidia-tesla-k80
Tôi biết rằng NAP hoạt động vì nó đã tạo ra một vài nút cho tôi, nhưng tất cả chúng đều là "những nút bình thường" (không có GPU).
Bây giờ, để "buộc" NAP tạo node-pool với máy GPU. Trước đó, không có nút GPU nào tồn tại trên cụm.Để làm điều đó, tôi đang tạo một Công việc với tệp cấu hình như vậy:
apiVersion: lô/v1
loại: Công việc
metadata:
Tên: đào tạo-công việc
thông số kỹ thuật:
ttlGiâySau khi Hoàn thành: 100
mẫu:
metadata:
Tên: đào tạo-công việc
thông số kỹ thuật:
nútChọn:
gpu: "đúng"
cloud.google.com/gke-spot: "đúng"
cloud.google.com/gke-accelerator: nvidia-tesla-k80
dung sai:
- khóa: cloud.google.com/gke-spot
toán tử: Bằng
giá trị: "đúng"
hiệu ứng: Không có lịch trình
hộp đựng:
- tên: kiểm tra gpu
hình ảnh: przomys/gpu-test
tài nguyên:
yêu cầu:
CPU: 500m
Hạn mức:
nvidia.com/gpu: 2 # yêu cầu 2 GPU
restartPolicy: Không bao giờ # Không khởi động lại vùng chứa sau khi thoát
Công việc đang được tạo, nhưng sau đó nó được đánh dấu là "Không thể lên lịch" và Nhật ký CA báo cho tôi lỗi như vậy:
{
"noDecisionStatus": {
"thời gian đo": "1650370630",
"noScaleUp": {
"Nhóm Pod chưa xử lý": [
{
"Migs bị từ chối": [
{
"lý do": {
"messageId": "no.scale.up.mig.failing.predicate",
"thông số": [
"Nút mối quan hệ",
"(các) nút không khớp với bộ chọn/mối quan hệ nút của Pod"
]
},
"mig": {
"khu": "us-central1-c",
"nodepool": "pool-3",
"tên": "gke-cụm-activeid-pool-3-af526144-grp"
}
},
{
"mig": {
"tên": "gke-cluster-activeid-nap-e2-chuẩn--c7a4d4f1-grp",
"khu": "us-central1-c",
"nodepool": "nap-e2-chuẩn-2-w52e84k8"
},
"lý do": {
"thông số": [
"Nút mối quan hệ",
"(các) nút không khớp với bộ chọn/mối quan hệ nút của Pod"
],
"messageId": "no.scale.up.mig.failing.predicate"
}
}
],
"napFailureReasons": [
{
"thông số": [
"GPU bất kỳ."
],
"messageId": "no.scale.up.nap.pod.gpu.no.limit.define"
}
],
"podgroup": {
"totalPodCount": 1,
"samplePod": {
"bộ điều khiển": {
"apiVersion": "đợt/v1",
"loại": "công việc",
"tên": "công việc đào tạo"
},
"không gian tên": "mặc định",
"tên": "đào tạo-công việc-7k8zd"
}
}
}
],
"chưa xử lýPodGroupsTotalCount": 1
}
}
}
tôi đoán là vậy no.scale.up.nap.pod.gpu.no.limit.define là phần quan trọng nhất. hướng dẫn GCP chỉ cho tôi đây. Nhưng tôi đã xác định giới hạn này, vì vậy tôi hết ý tưởng ...
Có lẽ ai đó có một ý tưởng những gì tôi đang làm sai?