Điểm:1

Trang web chặn các yêu cầu của tôi từ máy chủ linux ubuntu

lá cờ us

Tôi là một kỹ sư Java không có kinh nghiệm về nhà phát triển.Gần đây, lần đầu tiên tôi chơi với máy chủ Linux Ubuntu và sử dụng docker với dự án Selenium của mình và gặp phải vấn đề này:

Tôi cố gắng thu thập HTML từ một trang web, nhưng cuộc gọi của tôi đang bị chặn và tôi nhận được phản hồi bị cấm 403. Tôi đã cố gắng cuộn tròn cùng một trang web và cũng nhận được phản hồi tương tự.

Hơn nữa, tôi chỉ bị chặn trong máy Linux của mình, mọi thứ đều hoạt động trong local dev env với cùng một hình ảnh docker, vì vậy đó là lý do tại sao tôi nghĩ rằng "lỗi máy chủ" của nó.

Bạn có ý tưởng gì về máy chủ Linux của tôi bị thiếu ở đây không? Có lẽ tôi không có một số loại chứng chỉ hoặc có vấn đề về cors? Bất kỳ ý tưởng, những gì tôi có thể thử? (Chỉ dành cho mục đích học tập)

cuộc gọi cuộn tròn ở đây

lá cờ in
Chuyển trình duyệt web và các ứng dụng Java và curl của bạn thông qua một proxy như mitmproxy và kiểm tra yêu cầu, đặc biệt là các tiêu đề. Tôi chắc chắn sẽ thấy sự khác biệt khiến máy chủ web gửi các phản hồi khác nhau.
lá cờ cn
Bob
Không thực sự về chủ đề cho ServerFault, để các lệnh selen và curl hoạt động giống như StackOverflow hơn.Nhưng rất có thể: trang web cố gắng phát hiện trình dọn dẹp và sử dụng các cơ chế như cookie và phiên để xác định người dùng/trình duyệt tương tác thực.
lá cờ us
@Bob Tôi muốn nói đó là ServerFault, vì nó hoạt động với máy cục bộ của tôi có cùng hình ảnh docker.
lá cờ us
@Robert đánh giá cao đề xuất của bạn, tôi sẽ điều tra và cập nhật câu hỏi này.
lá cờ in
Chỉ là lỗi máy chủ không làm cho nó trở thành chủ đề cho ServerFault. Nếu đây là máy chủ của bạn mà bạn đang cố gắng loại bỏ, hãy cung cấp tệp nhật ký và cấu hình máy chủ của bạn và chúng tôi có thể cố gắng trợ giúp bạn. Nếu đây không phải là máy chủ của bạn, thì nó lạc đề ở đây. Và trong trường hợp đó, tôi sẽ ngừng làm những gì bạn đang làm. Bây giờ bạn vừa nhận được 403, thông báo tiếp theo có thể là từ luật sư.
lá cờ us
Như tôi đã đề cập, tôi hoàn toàn là người mới trong lĩnh vực này và tôi có thể cung cấp bất kỳ tệp cấu hình nào mà bạn nghĩ có thể hữu ích. Về cơ bản, tại thời điểm này, tôi không biết những gì tôi không biết. Tôi không biết điều này có thể là bất hợp pháp, nhưng tôi không nghĩ rằng một vài cuộc gọi trong một ngày có thể dẫn đến những hậu quả này, tôi không có máy chủ đang chạy và spam các cuộc gọi. Chắc chắn, bây giờ tôi thận trọng hơn và cũng sẽ nghiên cứu về điều này. Tôi cũng muốn đề cập rằng mục đích chính của tôi là học cách thực hành và tôi không có mục tiêu nào khác ở đây ngoài việc chỉ hiểu "cách tôi bị nhận ra và bị chặn". Cảm ơn
Điểm:1
lá cờ cn

Tôi tin rằng bạn đang bị giới hạn tốc độ hoặc bị chặn bởi trang web. Nếu tôi chạy lệnh curl tương tự từ máy tính xách tay của mình, tôi sẽ lấy lại được trang web.

Nhớ tôn trọng robot.txt nếu bạn đang quét web.

lá cờ us
Không biết về robots.txt, những phát hiện tuyệt vời, cảm ơn. Tôi không biết về giới hạn tốc độ, nhưng tôi nghĩ không phải vậy, vì ngay từ đầu sau khi triển khai lệnh gọi đầu tiên đã bị chặn.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.