Điểm:0

AWS EKS - EIA được đính kèm trên nút không thể truy cập bằng Pod

lá cờ in

Tôi đang sử dụng một tiêu chuẩn AWS EKS cụm, tất cả dựa trên đám mây (K8S 1.21) với nhiều nhóm nút, một trong số đó sử dụng Mẫu khởi chạy xác định Trình tăng tốc suy luận đàn hồi được đính kèm với các phiên bản (eia2.medium) để phục vụ một số loại dòng chảy căng kiểu mẫu.

Tôi đã đấu tranh rất nhiều để làm cho mô hình Học sâu của chúng tôi hoạt động hiệu quả trong khi triển khai, cụ thể là tôi có một Nhóm trong Triển khai với Tài khoản dịch vụ và chính sách IRSA của EKS được đính kèm, dựa trên AWS Deep Learning Container cho mô hình suy luận phục vụ dựa trên Tensorflow 1.15.0.

Hình ảnh được sử dụng là 763104351884.dkr.ecr.eu-west-1.amazonaws.com/tensorflow-inference-eia:1.15.0-cpu và khi mô hình được triển khai trong cụm, với một nút có ái lực phù hợp kích hoạt EIA nút, đơn giản là nó không hoạt động khi được gọi bằng cách sử dụng / lời gọi điểm cuối:

Sử dụng Amazon Elastic Inference Client Library Phiên bản: 1.6.3
Số lượng máy gia tốc suy luận đàn hồi có sẵn: 1
ID máy gia tốc suy luận đàn hồi: eia-<id>
Loại máy gia tốc suy luận đàn hồi: eia2.medium
Máy gia tốc suy luận đàn hồi Thứ tự: 0

2022-05-11 13:47:17.799145: F bên ngoài/org_tensorflow/tensorflow/contrib/ei/session/eia_session.cc:1221] Trạng thái không ổn: SwapExStateWithEI(tmp_inputs, tmp_outputs, tmp_freeze): Nội bộ: Không thể truy cập lấy danh sách trắng toán tử ban đầu từ máy chủ.
CẢNH BÁO:__main__:thoát phục vụ tensorflow bất ngờ (trạng thái: 134). đang khởi động lại.

Chỉ như một tài liệu tham khảo, khi sử dụng chỉ dành cho CPU hình ảnh có sẵn tại 763104351884.dkr.ecr.eu-west-1.amazonaws.com/tensorflow-inference:1.15.0-cpu, mô hình phục vụ hoàn hảo trong mọi môi trường (cục bộ cũng vậy).

Mỗi nút EKS và chính Pod (thông qua IRSA) đều có chính sách sau được đính kèm:

{
    "Phiên bản": "17-10-2012",
    "Bản tường trình": [
        {
            "Hiệu ứng": "Cho phép",
            "Hoạt động": [
                "suy luận đàn hồi:Kết nối",
                "tôi:Danh sách*",
                "tôi có được*",
                "ec2:Mô tả*",
                "ec2:Nhận*",
                "ec2:ModifyInstanceAttribute"
            ],
            "Nguồn": "*"
        }
    ]
}

theo tài liệu từ chính AWS, tôi cũng đã tạo Điểm cuối VPC cho Suy luận đàn hồi như được mô tả bởi AWS và liên kết nó với các mạng con riêng được sử dụng bởi các nút EKS cùng với Nhóm bảo mật được định cấu hình phù hợp cho phép SSH, HTTPS8500/8501 Các cổng TCP từ bất kỳ nút worker nào trong VPC CIDR.

Sử dụng cả hai AWS Reachability AnalyzerTrình mô phỏng chính sách IAM dường như không có gì sai và mạng và quyền có vẻ ổn, đồng thời EISetupValidator.py tập lệnh do AWS cung cấp cũng nói như vậy.

Bất kỳ đầu mối về những gì đang thực sự xảy ra ở đây? Tôi có thiếu một số loại quyền hoặc thiết lập mạng không?

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.