Điểm:0

Không thể chạy mô hình Tensorflow với CUDA trên Ubuntu 20.04

lá cờ cn

Tôi đã cố gắng cài đặt CUDA trong vài ngày qua để phù hợp với các CNN Tensorflow của mình. Hiện tại đã được cài đặt trên máy của tôi (Ubuntu 20.04 LTS, RTX3060):

tenorflow-gpu 2.4

trăn 3.8.10

cuDNN 8.0

CUDA 11.0

nvidia-driver-495

Trình điều khiển đã được cài đặt cùng với CUDA 11.0.

Khi tôi khớp một mô hình, tôi có thể thấy rằng GPU của tôi đang phân bổ tất cả bộ nhớ của nó nhưng chi tiết của mô hình vẫn ở mức: Kỷ nguyên: 1/50 và sẽ không bao giờ đi xa hơn.

Tôi đã cố hạ cấp trình điều khiển của mình xuống nvidia-driver-470 vì 495 chưa chính thức ra mắt. Hành động này khiến mọi thứ ngừng hoạt động: GPU của tôi không phân bổ nữa khi lắp, nvidia-smi không hoạt động nữa và việc nhập tensorflow hiện trả về:

Không thể tải thư viện động 'libcudart.so.11.0'; lỗi: ,

đó không phải là trường hợp trước đây.

Có ai biết vấn đề này có thể đến từ đâu không?

Cảm ơn

chỉnh sửa 1:

Sau khi khởi động lại, nhập Tensorflow trả về:

tensorflow/stream_executor/platform/default/dso_loader.cc:60] Không thể tải thư viện động 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: không thể mở tệp đối tượng được chia sẻ: Không có tệp hoặc thư mục như vậy; LD_LIBRARY_PATH: /usr/lib/cuda/include:/usr/lib/cuda/lib64:
2021-11-02 06:24:40.852786: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Bỏ qua lỗi cudart ở trên nếu bạn chưa thiết lập GPU trên máy của mình.

Các thư mục /usr/lib/cuda/include và /usr/lib/cuda/lib64 thực sự tồn tại.

chỉnh sửa 2:

Sau khi cài đặt lại cuda từ liên kết này: https://askubuntu.com/a/1288405/231142

Nhập Tensorflow hoạt động và không trả lại bất kỳ sự cố nào.

EarlyStop=Dừng sớm(kiên nhẫn=10,restore_best_weights=True)
Reduce_LR=ReduceLROnPlateau(monitor='val_accuracy',verbose=2,factor=0.5,min_lr=0.00001)
model_check=ModelCheckpoint('model.hdf5',monitor='val_loss',verbose=1,save_best_only=True)
tensorbord=TensorBoard(log_dir='logs')
gọi lại = [Dừng sớm, Giảm_LR,model_check,tensorbord]

trả về:

02/11/2021 20:09:55.607299: Tôi tensorflow/core/profiler/lib/profiler_session.cc:131] Đang khởi tạo phiên Profiler.
02/11/2021 20:09:55.607335: Tôi tensorflow/core/profiler/lib/profiler_session.cc:146] Phiên hồ sơ đã bắt đầu.
2021-11-02 20:09:55.608325: Tôi tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1614] Profiler đã tìm thấy 1 GPU
2021-11-02 20:09:55.609026: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Không thể tải thư viện động 'libcupti.so.11.2'; dlerror: libcupti.so.11.2: không thể mở tệp đối tượng được chia sẻ: Không có tệp hoặc thư mục như vậy; LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609320: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Không thể tải thư viện động 'libcupti.so'; dlerror: libcupti.so: không thể mở tệp đối tượng được chia sẻ: Không có tệp hoặc thư mục như vậy; LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609372: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] chức năng cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, this)failed with error CUPTI could not be đã tải hoặc không tìm thấy biểu tượng.
02/11/2021 20:09:55.609476: Tôi tensorflow/core/profiler/lib/profiler_session.cc:164] Phiên hồ sơ bị phá vỡ.
2021-11-02 20:09:55.609527: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1757] chức năng cupti_interface_->Finalize() không thành công với lỗi Không thể tải CUPTI hoặc không tìm thấy biểu tượng.

Quá trình lắp mô hình bắt đầu và sử dụng tất cả GPU và CPU của tôi trong khi vẫn chạy chậm và quay trở lại:

2021-11-02 20:09:55.832301: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Phân bổ 428802048 vượt quá 10% bộ nhớ hệ thống trống.
2021-11-02 20:09:56.269844: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Việc phân bổ 571736064 vượt quá 10% bộ nhớ hệ thống trống.
2021-11-02 20:09:56.669900: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Phân bổ 428802048 vượt quá 10% bộ nhớ hệ thống trống.
2021-11-02 20:09:56.821919: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Phân bổ 571736064 vượt quá 10% bộ nhớ hệ thống trống.
2021-11-02 20:09:57.065544: Tôi tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:185] Không có Thẻ tối ưu hóa MLIR nào được bật (đã đăng ký 2)
Kỷ nguyên 20/1
2021-11-02 20:09:59.868007: I tensorflow/stream_executor/cuda/cuda_dnn.cc:369] Đã tải phiên bản cuDNN 8204
  1/137 [.................................] - ETA: 1:15:21 - tổn thất: 0,7485 - độ chính xác: 0.38712021-11-02 20:10:30.404084: Tôi tensorflow/core/profiler/lib/profiler_session.cc:131] Đang khởi tạo phiên hồ sơ.
02/11/2021 20:10:30.404114: Tôi tensorflow/core/profiler/lib/profiler_session.cc:146] Phiên hồ sơ đã bắt đầu.
2021-11-02 20:10:30.404277: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] chức năng cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, this)failed with error CUPTI could not be đã tải hoặc không tìm thấy biểu tượng.

Có thể có một vấn đề với libcupti.so.11.2 thư viện nhưng tôi chưa tìm thấy nó vào lúc này.

Terrance avatar
lá cờ id
Tôi ghét phải hỏi điều này, nhưng khi bạn "không dùng nữa" trình điều khiển NVIDIA của mình, bạn có khởi động lại hệ thống của mình để trình điều khiển cũ hơn có hiệu lực không?
Louis avatar
lá cờ cn
tôi đã làm cho các biện pháp tốt. nhập tensorflow bây giờ trả về: `2021-11-02 06:01:48.281681: W tensorflow/stream_executor/platform/default/dso_loader.cc:60] Không thể tải thư viện động 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: không thể mở tệp đối tượng được chia sẻ: Không có tệp hoặc thư mục như vậy; LD_LIBRARY_PATH: /usr/lib/cuda/include:/usr/lib/cuda/lib64: 2021-11-02 06:01:48.281751: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Bỏ qua lỗi cudart ở trên nếu bạn chưa thiết lập GPU trên máy của mình.`
Terrance avatar
lá cờ id
Tôi không chắc bạn thiết lập hệ thống cho CUDA như thế nào, nhưng bạn có thể muốn xem câu trả lời của tôi [tại đây](https://askubuntu.com/a/1288405/231142) và xem liệu bạn có bỏ sót bước nào trong cài đặt CUDA giống như thông tin bổ sung mà bạn cần thêm vào tệp `~/.profile`. Tôi ước mình có một thẻ tốt hơn trên hệ thống gia đình của mình vì một số bài kiểm tra dòng chảy tôi không thể chạy do thẻ của tôi đã cũ hơn, nhưng các bài kiểm tra CUDA khác thì vượt qua. Đôi khi chạy `sudo ldconfig` cũng có thể khắc phục các sự cố về tệp thư viện.
Louis avatar
lá cờ cn
tôi đã làm theo hướng dẫn trên liên kết của bạn. tôi đã cập nhật bài viết với trạng thái mới.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.