Tôi đã cố gắng cài đặt CUDA trong vài ngày qua để phù hợp với các CNN Tensorflow của mình.
Hiện tại đã được cài đặt trên máy của tôi (Ubuntu 20.04 LTS, RTX3060):
tenorflow-gpu 2.4
trăn 3.8.10
cuDNN 8.0
CUDA 11.0
nvidia-driver-495
Trình điều khiển đã được cài đặt cùng với CUDA 11.0.
Khi tôi khớp một mô hình, tôi có thể thấy rằng GPU của tôi đang phân bổ tất cả bộ nhớ của nó nhưng chi tiết của mô hình vẫn ở mức: Kỷ nguyên: 1/50
và sẽ không bao giờ đi xa hơn.
Tôi đã cố hạ cấp trình điều khiển của mình xuống nvidia-driver-470 vì 495 chưa chính thức ra mắt.
Hành động này khiến mọi thứ ngừng hoạt động: GPU của tôi không phân bổ nữa khi lắp, nvidia-smi
không hoạt động nữa và việc nhập tensorflow hiện trả về:
Không thể tải thư viện động 'libcudart.so.11.0'; lỗi:
,
đó không phải là trường hợp trước đây.
Có ai biết vấn đề này có thể đến từ đâu không?
Cảm ơn
chỉnh sửa 1:
Sau khi khởi động lại, nhập Tensorflow trả về:
tensorflow/stream_executor/platform/default/dso_loader.cc:60] Không thể tải thư viện động 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: không thể mở tệp đối tượng được chia sẻ: Không có tệp hoặc thư mục như vậy; LD_LIBRARY_PATH: /usr/lib/cuda/include:/usr/lib/cuda/lib64:
2021-11-02 06:24:40.852786: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Bỏ qua lỗi cudart ở trên nếu bạn chưa thiết lập GPU trên máy của mình.
Các thư mục /usr/lib/cuda/include và /usr/lib/cuda/lib64 thực sự tồn tại.
chỉnh sửa 2:
Sau khi cài đặt lại cuda từ liên kết này: https://askubuntu.com/a/1288405/231142
Nhập Tensorflow hoạt động và không trả lại bất kỳ sự cố nào.
EarlyStop=Dừng sớm(kiên nhẫn=10,restore_best_weights=True)
Reduce_LR=ReduceLROnPlateau(monitor='val_accuracy',verbose=2,factor=0.5,min_lr=0.00001)
model_check=ModelCheckpoint('model.hdf5',monitor='val_loss',verbose=1,save_best_only=True)
tensorbord=TensorBoard(log_dir='logs')
gọi lại = [Dừng sớm, Giảm_LR,model_check,tensorbord]
trả về:
02/11/2021 20:09:55.607299: Tôi tensorflow/core/profiler/lib/profiler_session.cc:131] Đang khởi tạo phiên Profiler.
02/11/2021 20:09:55.607335: Tôi tensorflow/core/profiler/lib/profiler_session.cc:146] Phiên hồ sơ đã bắt đầu.
2021-11-02 20:09:55.608325: Tôi tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1614] Profiler đã tìm thấy 1 GPU
2021-11-02 20:09:55.609026: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Không thể tải thư viện động 'libcupti.so.11.2'; dlerror: libcupti.so.11.2: không thể mở tệp đối tượng được chia sẻ: Không có tệp hoặc thư mục như vậy; LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609320: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Không thể tải thư viện động 'libcupti.so'; dlerror: libcupti.so: không thể mở tệp đối tượng được chia sẻ: Không có tệp hoặc thư mục như vậy; LD_LIBRARY_PATH: /usr/local/cuda-11.5/lib64:/usr/lib/cuda/include:/usr/lib/cuda/lib64:/usr/local/cuda-11.5/lib64
2021-11-02 20:09:55.609372: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] chức năng cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, this)failed with error CUPTI could not be đã tải hoặc không tìm thấy biểu tượng.
02/11/2021 20:09:55.609476: Tôi tensorflow/core/profiler/lib/profiler_session.cc:164] Phiên hồ sơ bị phá vỡ.
2021-11-02 20:09:55.609527: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1757] chức năng cupti_interface_->Finalize() không thành công với lỗi Không thể tải CUPTI hoặc không tìm thấy biểu tượng.
Quá trình lắp mô hình bắt đầu và sử dụng tất cả GPU và CPU của tôi trong khi vẫn chạy chậm và quay trở lại:
2021-11-02 20:09:55.832301: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Phân bổ 428802048 vượt quá 10% bộ nhớ hệ thống trống.
2021-11-02 20:09:56.269844: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Việc phân bổ 571736064 vượt quá 10% bộ nhớ hệ thống trống.
2021-11-02 20:09:56.669900: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Phân bổ 428802048 vượt quá 10% bộ nhớ hệ thống trống.
2021-11-02 20:09:56.821919: W tensorflow/core/framework/cpu_allocator_impl.cc:80] Phân bổ 571736064 vượt quá 10% bộ nhớ hệ thống trống.
2021-11-02 20:09:57.065544: Tôi tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:185] Không có Thẻ tối ưu hóa MLIR nào được bật (đã đăng ký 2)
Kỷ nguyên 20/1
2021-11-02 20:09:59.868007: I tensorflow/stream_executor/cuda/cuda_dnn.cc:369] Đã tải phiên bản cuDNN 8204
1/137 [.................................] - ETA: 1:15:21 - tổn thất: 0,7485 - độ chính xác: 0.38712021-11-02 20:10:30.404084: Tôi tensorflow/core/profiler/lib/profiler_session.cc:131] Đang khởi tạo phiên hồ sơ.
02/11/2021 20:10:30.404114: Tôi tensorflow/core/profiler/lib/profiler_session.cc:146] Phiên hồ sơ đã bắt đầu.
2021-11-02 20:10:30.404277: E tensorflow/core/profiler/internal/gpu/cupti_tracer.cc:1666] chức năng cupti_interface_->Subscribe( &subscriber_, (CUpti_CallbackFunc)ApiCallback, this)failed with error CUPTI could not be đã tải hoặc không tìm thấy biểu tượng.
Có thể có một vấn đề với libcupti.so.11.2
thư viện nhưng tôi chưa tìm thấy nó vào lúc này.