Tôi là thành viên của một nhóm nghiên cứu vật lý nhỏ (10-15 người) gần đây đã mua một máy chủ lưu trữ và tôi sẽ chịu trách nhiệm thiết lập nó. Do đó, tôi cần nghĩ ra cách tốt nhất để tổ chức dữ liệu mà chúng tôi sẽ tạo.
Khi nghiên cứu cách tốt nhất để làm điều này, tôi đã tìm thấy git lfs. Chúng tôi đã sử dụng GitLab (phiên bản đám mây) để kiểm soát phiên bản mã của chúng tôi và dễ dàng chia sẻ chúng giữa chúng tôi. Vì vậy, sẽ rất hợp lý khi tạo một kho lưu trữ "dữ liệu" trong đó hầu hết các tệp sẽ là tệp nhị phân, được lưu trữ và theo dõi qua lfs.Tuy nhiên, điều này có vẻ như nó sẽ tải các tệp lên máy chủ của GitLab, đánh bại toàn bộ mục đích của một máy tính lưu trữ (đồng thời, chúng tôi sẽ cần mua dung lượng lưu trữ từ chúng).
Giải pháp dường như dành cho chúng tôi là triển khai phiên bản cộng đồng của GitLab trên máy chủ lưu trữ của chúng tôi. Bây giờ đến câu hỏi của tôi:
- Có phải đó là cách duy nhất? Lý tưởng nhất là tôi muốn có thể nói với GitLab rằng các tệp của chúng tôi được lưu trữ ở nơi khác và git repo chỉ ra rằng "ở nơi khác" là máy chủ lưu trữ của chúng tôi?
- Nếu tôi phải triển khai CE của GitLab, thì việc duy trì một máy chủ như vậy khó đến mức nào? Kịch bản lý tưởng của tôi là không cần bảo trì, tức là thiết lập một lần và miễn là không có ai cập nhật HĐH, nó sẽ không bị hỏng (xem bình luận bên dưới).
- Trong trường hợp nó bị hỏng, dữ liệu sẽ được lưu trữ theo cách mà ai đó có thể dễ dàng truy xuất, tức là dữ liệu sẽ không được nén trong đốm màu nhị phân mà bạn cần máy chủ chạy để truy xuất dữ liệu. Lý tưởng nhất là tôi thậm chí có thể đọc dữ liệu từ bên trong máy chủ khi dịch vụ đang chạy, vì chúng tôi có thể thực hiện một số phân tích dữ liệu bên trong máy tính này.
Nhận xét về điểm 2: Tôi biết việc không thực hiện cập nhật thường xuyên có thể để lại lỗ hổng bảo mật. Tuy nhiên, dữ liệu được lưu trữ không chứa thông tin nhạy cảm. Chúng tôi không xử lý thông tin cá nhân và việc rò rỉ hoặc mất dữ liệu sẽ chỉ gây ra những hậu quả nhỏ. Mặt khác, tôi là một nghiên cứu sinh sau tiến sĩ và có thể phải rời nhóm bất cứ lúc nào để chuyển sang một vị trí cố định. Vì nhóm tập trung vào nghiên cứu vật lý, những người khác đến sau khi tôi rời đi có thể không có các kỹ năng cần thiết để duy trì máy chủ. Do đó, nhu cầu về một hệ thống quản lý dữ liệu cần ít hoặc không cần bảo trì.