Điểm:1

Sử dụng git lfs để quản lý dữ liệu trong máy chủ lưu trữ

lá cờ cn

Tôi là thành viên của một nhóm nghiên cứu vật lý nhỏ (10-15 người) gần đây đã mua một máy chủ lưu trữ và tôi sẽ chịu trách nhiệm thiết lập nó. Do đó, tôi cần nghĩ ra cách tốt nhất để tổ chức dữ liệu mà chúng tôi sẽ tạo.

Khi nghiên cứu cách tốt nhất để làm điều này, tôi đã tìm thấy git lfs. Chúng tôi đã sử dụng GitLab (phiên bản đám mây) để kiểm soát phiên bản mã của chúng tôi và dễ dàng chia sẻ chúng giữa chúng tôi. Vì vậy, sẽ rất hợp lý khi tạo một kho lưu trữ "dữ liệu" trong đó hầu hết các tệp sẽ là tệp nhị phân, được lưu trữ và theo dõi qua lfs.Tuy nhiên, điều này có vẻ như nó sẽ tải các tệp lên máy chủ của GitLab, đánh bại toàn bộ mục đích của một máy tính lưu trữ (đồng thời, chúng tôi sẽ cần mua dung lượng lưu trữ từ chúng).

Giải pháp dường như dành cho chúng tôi là triển khai phiên bản cộng đồng của GitLab trên máy chủ lưu trữ của chúng tôi. Bây giờ đến câu hỏi của tôi:

  1. Có phải đó là cách duy nhất? Lý tưởng nhất là tôi muốn có thể nói với GitLab rằng các tệp của chúng tôi được lưu trữ ở nơi khác và git repo chỉ ra rằng "ở nơi khác" là máy chủ lưu trữ của chúng tôi?
  2. Nếu tôi phải triển khai CE của GitLab, thì việc duy trì một máy chủ như vậy khó đến mức nào? Kịch bản lý tưởng của tôi là không cần bảo trì, tức là thiết lập một lần và miễn là không có ai cập nhật HĐH, nó sẽ không bị hỏng (xem bình luận bên dưới).
  3. Trong trường hợp nó bị hỏng, dữ liệu sẽ được lưu trữ theo cách mà ai đó có thể dễ dàng truy xuất, tức là dữ liệu sẽ không được nén trong đốm màu nhị phân mà bạn cần máy chủ chạy để truy xuất dữ liệu. Lý tưởng nhất là tôi thậm chí có thể đọc dữ liệu từ bên trong máy chủ khi dịch vụ đang chạy, vì chúng tôi có thể thực hiện một số phân tích dữ liệu bên trong máy tính này.

Nhận xét về điểm 2: Tôi biết việc không thực hiện cập nhật thường xuyên có thể để lại lỗ hổng bảo mật. Tuy nhiên, dữ liệu được lưu trữ không chứa thông tin nhạy cảm. Chúng tôi không xử lý thông tin cá nhân và việc rò rỉ hoặc mất dữ liệu sẽ chỉ gây ra những hậu quả nhỏ. Mặt khác, tôi là một nghiên cứu sinh sau tiến sĩ và có thể phải rời nhóm bất cứ lúc nào để chuyển sang một vị trí cố định. Vì nhóm tập trung vào nghiên cứu vật lý, những người khác đến sau khi tôi rời đi có thể không có các kỹ năng cần thiết để duy trì máy chủ. Do đó, nhu cầu về một hệ thống quản lý dữ liệu cần ít hoặc không cần bảo trì.

Điểm:0
lá cờ jp

Bạn có hai lựa chọn trong tâm trí của tôi.

  1. Chạy Gitlab cộng đồng tự lưu trữ trên máy chủ lưu trữ của bạn và sử dụng git-lfs trên đó.
  2. Sử dụng git-annex.

Git-annex theo dõi các vị trí tệp trong git nhưng nội dung tệp thực tế có thể được lưu trữ trong nhiều chương trình phụ trợ khác nhau, ví dụ; rsync, s3, bụp. Một trong số đó bạn có thể thiết lập trên máy chủ lưu trữ của mình: https://git-annex.branchable.com/special_remotes/

Chỉnh sửa để trả lời câu hỏi của bạn về Quản trị viên Gitlab CE. Chúng tôi sử dụng nó cho một nhóm nhà phát triển nhỏ gồm 10 người và khoảng 100 repo. Nếu bạn không sử dụng Tích hợp liên tục của Gitlab, việc quản trị sẽ rất đơn giản.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.