Bạn hạch toán thời gian tính toán GPU trên các cụm HPC của mình như thế nào?
Tôi đang phát triển và khá không đồng nhất (SXM4 A100, PCIe A100, NVlinked V100, PCIe V100, T4, thẻ AMD sắp ra mắt, v.v.), phân vùng GPU trên cụm HPC (máy chủ Debian phần cứng hỗn hợp chạy bộ lập lịch OAR).
Theo truyền thống, chúng tôi tính thời gian tính toán là giây cho mỗi lõi cho mỗi công việc. Bất chấp sự thay đổi về CPU và bộ nhớ giữa các nút (nút béo, nút tốc độ cao, nút tiêu chuẩn), sự khác biệt đủ nhỏ để không ảnh hưởng đáng kể đến kế toán, đặc biệt là trong môi trường trường đại học nhỏ.
Trên GPU, mọi thứ thay đổi khá nhiều.Sự khác biệt về hiệu suất và chi phí giữa nút SXM4 A100 và T4 là khá đáng kể và mô hình hiện tại của chúng tôi có thể sẽ không cắt giảm được, hơn nữa khi các mối quan hệ đối tác của các trường đại học ngày càng phát triển đòi hỏi chúng tôi phải tổ chức ngày càng nhiều dự án khu vực tư nhân mà chúng tôi sẽ phải tính đến cho chính xác.
Tôi đang khám phá cách thực hiện việc tính toán này với cơ sở hạ tầng hiện tại của chúng tôi nhưng cũng băn khoăn không biết những người khác đang vận hành các cụm GPU HPC sử dụng phương pháp nào. Nếu bạn có bất kỳ lời khuyên nào về cách thực hiện việc này hoặc chiến lược/công cụ nào bạn đã sử dụng, tôi rất sẵn lòng lắng nghe chúng!
Cảm ơn!