Tôi đang sử dụng một tiêu chuẩn AWS EKS cụm, tất cả dựa trên đám mây (K8S 1.21) với nhiều nhóm nút, một trong số đó sử dụng Mẫu khởi chạy xác định Trình tăng tốc suy luận đàn hồi được đính kèm với các phiên bản (eia2.medium) để phục vụ một số loại dòng chảy căng kiểu mẫu.
Tôi đã đấu tranh rất nhiều để làm cho mô hình Học sâu của chúng tôi hoạt động hiệu quả trong khi triển khai, cụ thể là tôi có một Nhóm trong Triển khai với Tài khoản dịch vụ và chính sách IRSA của EKS được đính kèm, dựa trên AWS Deep Learning Container cho mô hình suy luận phục vụ dựa trên Tensorflow 1.15.0.
Hình ảnh được sử dụng là 763104351884.dkr.ecr.eu-west-1.amazonaws.com/tensorflow-inference-eia:1.15.0-cpu
và khi mô hình được triển khai trong cụm, với một nút có ái lực phù hợp kích hoạt EIA nút, đơn giản là nó không hoạt động khi được gọi bằng cách sử dụng / lời gọi
điểm cuối:
Sử dụng Amazon Elastic Inference Client Library Phiên bản: 1.6.3
Số lượng máy gia tốc suy luận đàn hồi có sẵn: 1
ID máy gia tốc suy luận đàn hồi: eia-<id>
Loại máy gia tốc suy luận đàn hồi: eia2.medium
Máy gia tốc suy luận đàn hồi Thứ tự: 0
2022-05-11 13:47:17.799145: F bên ngoài/org_tensorflow/tensorflow/contrib/ei/session/eia_session.cc:1221] Trạng thái không ổn: SwapExStateWithEI(tmp_inputs, tmp_outputs, tmp_freeze): Nội bộ: Không thể truy cập lấy danh sách trắng toán tử ban đầu từ máy chủ.
CẢNH BÁO:__main__:thoát phục vụ tensorflow bất ngờ (trạng thái: 134). đang khởi động lại.
Chỉ như một tài liệu tham khảo, khi sử dụng chỉ dành cho CPU hình ảnh có sẵn tại 763104351884.dkr.ecr.eu-west-1.amazonaws.com/tensorflow-inference:1.15.0-cpu
, mô hình phục vụ hoàn hảo trong mọi môi trường (cục bộ cũng vậy).
Mỗi nút EKS và chính Pod (thông qua IRSA) đều có chính sách sau được đính kèm:
{
"Phiên bản": "17-10-2012",
"Bản tường trình": [
{
"Hiệu ứng": "Cho phép",
"Hoạt động": [
"suy luận đàn hồi:Kết nối",
"tôi:Danh sách*",
"tôi có được*",
"ec2:Mô tả*",
"ec2:Nhận*",
"ec2:ModifyInstanceAttribute"
],
"Nguồn": "*"
}
]
}
theo tài liệu từ chính AWS, tôi cũng đã tạo Điểm cuối VPC cho Suy luận đàn hồi như được mô tả bởi AWS và liên kết nó với các mạng con riêng được sử dụng bởi các nút EKS cùng với Nhóm bảo mật được định cấu hình phù hợp cho phép SSH, HTTPS và 8500/8501 Các cổng TCP từ bất kỳ nút worker nào trong VPC CIDR.
Sử dụng cả hai AWS Reachability Analyzer và Trình mô phỏng chính sách IAM dường như không có gì sai và mạng và quyền có vẻ ổn, đồng thời EISetupValidator.py
tập lệnh do AWS cung cấp cũng nói như vậy.
Bất kỳ đầu mối về những gì đang thực sự xảy ra ở đây? Tôi có thiếu một số loại quyền hoặc thiết lập mạng không?