Điều gì sẽ là cách thực hành tốt nhất về AWS cho những điều sau đây:
- Nhiều thiết bị y tế IOT thu thập dữ liệu ở mức khoảng 256kbps
- Dữ liệu là dữ liệu chuỗi thời gian (một ma trận của [Kênh X Mẫu], có thể có hàng triệu mẫu và hàng chục kênh)
- Dữ liệu được lưu vào các tệp trong S3 và mỗi phiên được ghi vào cơ sở dữ liệu với một số siêu dữ liệu. Cho đến nay chúng tôi đang sử dụng RDS cho việc này.
- Mỗi tập dữ liệu khoảng 5GB
- Chúng tôi có quyền truy cập vào bộ dữ liệu và muốn chạy một số quy trình phân tích:
- Truy cập tệp dữ liệu
- Bước phân tích:
- Thực thi mã (phiên bản được quản lý) chấp nhận tệp dữ liệu và tạo ra kết quả (tệp khác hoặc JSON)
- Đăng ký bước phân tích trong một số cơ sở dữ liệu (cơ sở dữ liệu nào?) Và đăng ký kết quả (nếu một tệp được tạo, hãy đăng ký vị trí của nó)
- Thực hiện thêm N bước phân tích theo cách tương tự. Các bước phân tích có thể phụ thuộc vào nhau, nhưng cũng có thể song song.
- Kết quả của bước thứ N là kết quả cuối cùng của quy trình phân tích.
Ý tưởng là cung cấp một cách dễ dàng để chạy mã trên dữ liệu trong AWS mà không cần thực sự tải tệp xuống và ghi nhật ký về những phân tích đã được thực hiện trên dữ liệu.
Bất kỳ ý tưởng mà dịch vụ và cơ sở dữ liệu để sử dụng? Làm thế nào để truyền dữ liệu xung quanh?
Chẳng hạn, giao diện dễ sử dụng cho nhà khoa học dữ liệu làm việc với Python là gì?
Tôi có ý tưởng sau đây trong tâm trí:
- Các bước phân tích là kho mã được quản lý trong CodeCommit (có thể là vùng chứa)
- Các nhà khoa học dữ liệu xác định các luồng (ở định dạng JSON)
- Khi một nhà khoa học dữ liệu đưa ra mệnh lệnh, quy trình của anh ta được thực thi
- Luồng được đăng ký dưới dạng một mục trong cơ sở dữ liệu
- Trình quản lý luồng phân phối các luồng giữa các tác nhân thực thi
- Tác nhân là một cơ chế lấy luồng, lấy dữ liệu và vùng chứa rồi thực thi luồng
- Mỗi tác nhân đăng ký từng bước trong luồng vào cơ sở dữ liệu
Ví dụ về các bước phân tích:
- lọc
- Ghi nhãn các thành phần tạo tác trong dữ liệu (dấu thời gian)
- Tính toán các tham số thống kê