Điểm:0

Thiết lập kiến ​​trúc để phân tích luồng dữ liệu luồng thời gian từ nhiều nguồn

lá cờ sl

Điều gì sẽ là cách thực hành tốt nhất về AWS cho những điều sau đây:

  • Nhiều thiết bị y tế IOT thu thập dữ liệu ở mức khoảng 256kbps
  • Dữ liệu là dữ liệu chuỗi thời gian (một ma trận của [Kênh X Mẫu], có thể có hàng triệu mẫu và hàng chục kênh)
  • Dữ liệu được lưu vào các tệp trong S3 và mỗi phiên được ghi vào cơ sở dữ liệu với một số siêu dữ liệu. Cho đến nay chúng tôi đang sử dụng RDS cho việc này.
  • Mỗi tập dữ liệu khoảng 5GB
  • Chúng tôi có quyền truy cập vào bộ dữ liệu và muốn chạy một số quy trình phân tích:
    • Truy cập tệp dữ liệu
    • Bước phân tích:
      • Thực thi mã (phiên bản được quản lý) chấp nhận tệp dữ liệu và tạo ra kết quả (tệp khác hoặc JSON)
      • Đăng ký bước phân tích trong một số cơ sở dữ liệu (cơ sở dữ liệu nào?) Và đăng ký kết quả (nếu một tệp được tạo, hãy đăng ký vị trí của nó)
    • Thực hiện thêm N bước phân tích theo cách tương tự. Các bước phân tích có thể phụ thuộc vào nhau, nhưng cũng có thể song song.
    • Kết quả của bước thứ N là kết quả cuối cùng của quy trình phân tích.

Ý tưởng là cung cấp một cách dễ dàng để chạy mã trên dữ liệu trong AWS mà không cần thực sự tải tệp xuống và ghi nhật ký về những phân tích đã được thực hiện trên dữ liệu.

Bất kỳ ý tưởng mà dịch vụ và cơ sở dữ liệu để sử dụng? Làm thế nào để truyền dữ liệu xung quanh? Chẳng hạn, giao diện dễ sử dụng cho nhà khoa học dữ liệu làm việc với Python là gì?

Tôi có ý tưởng sau đây trong tâm trí:

  • Các bước phân tích là kho mã được quản lý trong CodeCommit (có thể là vùng chứa)
  • Các nhà khoa học dữ liệu xác định các luồng (ở định dạng JSON)
  • Khi một nhà khoa học dữ liệu đưa ra mệnh lệnh, quy trình của anh ta được thực thi
  • Luồng được đăng ký dưới dạng một mục trong cơ sở dữ liệu
  • Trình quản lý luồng phân phối các luồng giữa các tác nhân thực thi
  • Tác nhân là một cơ chế lấy luồng, lấy dữ liệu và vùng chứa rồi thực thi luồng
  • Mỗi tác nhân đăng ký từng bước trong luồng vào cơ sở dữ liệu

Ví dụ về các bước phân tích:

  1. lọc
  2. Ghi nhãn các thành phần tạo tác trong dữ liệu (dấu thời gian)
  3. Tính toán các tham số thống kê
Điểm:2
lá cờ cn

Có vẻ như bạn muốn sử dụng Elastic MapReduce để thực hiện phân tích - đó là dịch vụ được quản lý dữ liệu lớn.Bạn sẽ có thể sử dụng Sổ tay EMR để phân tích. Lấy dữ liệu vào có lẽ là tốt nhất với thứ gì đó như Kinesis. Ngoài ra còn có rất nhiều dịch vụ IoT cụ thể, nhưng đó không phải là lĩnh vực chuyên môn của tôi.

Đây là một câu hỏi khá lớn, mở rộng - thực tế là bạn đang hỏi 'làm cách nào để xây dựng một nền tảng phân tích dữ liệu lớn', đây là một câu hỏi phức tạp! Tôi khuyên bạn nên đọc các dịch vụ được liệt kê ở trên và xem liệu chúng có đáp ứng nhu cầu của bạn hay không hoặc để công ty của bạn liên hệ với AWS để nhận các dịch vụ chuyên nghiệp. Nó không phải tốn nhiều tiền!

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.