Thiết lập kiến trúc để phân tích luồng dữ liệu luồng thời gian từ nhiều nguồn

sstbrg

08:06, 20/04/2023

Điều gì sẽ là cách thực hành tốt nhất về AWS cho những điều sau đây:

Nhiều thiết bị y tế IOT thu thập dữ liệu ở mức khoảng 256kbps
Dữ liệu là dữ liệu chuỗi thời gian (một ma trận của [Kênh X Mẫu], có thể có hàng triệu mẫu và hàng chục kênh)
Dữ liệu được lưu vào các tệp trong S3 và mỗi phiên được ghi vào cơ sở dữ liệu với một số siêu dữ liệu. Cho đến nay chúng tôi đang sử dụng RDS cho việc này.
Mỗi tập dữ liệu khoảng 5GB
Chúng tôi có quyền truy cập vào bộ dữ liệu và muốn chạy một số quy trình phân tích:
- Truy cập tệp dữ liệu
- Bước phân tích:
  - Thực thi mã (phiên bản được quản lý) chấp nhận tệp dữ liệu và tạo ra kết quả (tệp khác hoặc JSON)
  - Đăng ký bước phân tích trong một số cơ sở dữ liệu (cơ sở dữ liệu nào?) Và đăng ký kết quả (nếu một tệp được tạo, hãy đăng ký vị trí của nó)
- Thực hiện thêm N bước phân tích theo cách tương tự. Các bước phân tích có thể phụ thuộc vào nhau, nhưng cũng có thể song song.
- Kết quả của bước thứ N là kết quả cuối cùng của quy trình phân tích.

Ý tưởng là cung cấp một cách dễ dàng để chạy mã trên dữ liệu trong AWS mà không cần thực sự tải tệp xuống và ghi nhật ký về những phân tích đã được thực hiện trên dữ liệu.

Bất kỳ ý tưởng mà dịch vụ và cơ sở dữ liệu để sử dụng? Làm thế nào để truyền dữ liệu xung quanh? Chẳng hạn, giao diện dễ sử dụng cho nhà khoa học dữ liệu làm việc với Python là gì?

Tôi có ý tưởng sau đây trong tâm trí:

Các bước phân tích là kho mã được quản lý trong CodeCommit (có thể là vùng chứa)
Các nhà khoa học dữ liệu xác định các luồng (ở định dạng JSON)
Khi một nhà khoa học dữ liệu đưa ra mệnh lệnh, quy trình của anh ta được thực thi
Luồng được đăng ký dưới dạng một mục trong cơ sở dữ liệu
Trình quản lý luồng phân phối các luồng giữa các tác nhân thực thi
Tác nhân là một cơ chế lấy luồng, lấy dữ liệu và vùng chứa rồi thực thi luồng
Mỗi tác nhân đăng ký từng bước trong luồng vào cơ sở dữ liệu

Ví dụ về các bước phân tích:

lọc
Ghi nhãn các thành phần tạo tác trong dữ liệu (dấu thời gian)
Tính toán các tham số thống kê

0 + 0

phân tích

máy lẻ2

amazon-s3

hộp đựng

aws-codecommit

Điểm:2

Server

shearn89

08:43, 20/04/2023

Có vẻ như bạn muốn sử dụng Elastic MapReduce để thực hiện phân tích - đó là dịch vụ được quản lý dữ liệu lớn.Bạn sẽ có thể sử dụng Sổ tay EMR để phân tích. Lấy dữ liệu vào có lẽ là tốt nhất với thứ gì đó như Kinesis. Ngoài ra còn có rất nhiều dịch vụ IoT cụ thể, nhưng đó không phải là lĩnh vực chuyên môn của tôi.

Đây là một câu hỏi khá lớn, mở rộng - thực tế là bạn đang hỏi 'làm cách nào để xây dựng một nền tảng phân tích dữ liệu lớn', đây là một câu hỏi phức tạp! Tôi khuyên bạn nên đọc các dịch vụ được liệt kê ở trên và xem liệu chúng có đáp ứng nhu cầu của bạn hay không hoặc để công ty của bạn liên hệ với AWS để nhận các dịch vụ chuyên nghiệp. Nó không phải tốn nhiều tiền!

0 + 0

Phan Văn Trường

Câu hỏi này là trong các ngôn ngữ khác:

EN: Setting up an architecture for analyses flows of time stream data from multiple sources

TH: การตั้งค่าสถาปัตยกรรมสำหรับวิเคราะห์โฟลว์ของข้อมูลสตรีมเวลาจากหลายแหล่ง

RO: Configurarea unei arhitecturi pentru analiza fluxurilor de date din fluxul de timp din mai multe surse

RU: Настройка архитектуры для анализа потоков данных временного потока из нескольких источников

VI: Thiết lập kiến trúc để phân tích luồng dữ liệu luồng thời gian từ nhiều nguồn

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.

Thiết lập kiến ​​trúc để phân tích luồng dữ liệu luồng thời gian từ nhiều nguồn

Đăng câu trả lời

Thiết lập kiến trúc để phân tích luồng dữ liệu luồng thời gian từ nhiều nguồn