Điểm:0

Cách tránh email được gửi đến trình thu thập dữ liệu web sâu của Google

lá cờ jp

Trang web của tôi có một khu vực giới hạn cho những người dùng đăng ký bằng email hợp lệ. Tôi đã nhận được yêu cầu từ các email không có thật và tôi muốn tránh gửi email đến các địa chỉ không tồn tại vì sợ chúng làm tăng tỷ lệ thoát và ảnh hưởng đến danh tiếng gửi thư của tôi.

Các email là:

[email protected]
[email protected]
kWQcHVzn%40ypEcDvh.NwB

Cái cuối cùng có %40, thực thể HTML cho @. Các email là phần cắt ngắn của cùng một chuỗi ký tự.

Kiểm tra địa chỉ IP của các yêu cầu bằng DNS ngược, cả ba yêu cầu đều đến từ cache.google.com. Nếu các yêu cầu đến từ trình thu thập thông tin của Google, thì tôi mong rằng những địa chỉ email này sẽ được ghi lại, nhưng tôi không thể tìm thấy bất kỳ tài liệu tham khảo nào.

Trong trường hợp đó là trình thu thập thông tin của Google, tôi muốn nó lập chỉ mục trang web đồng thời tránh gửi địa chỉ email đến địa chỉ không có thật. Tôi đã thực hiện lọc trên địa chỉ tìm kiếm chuỗi ký tự đó.

Có danh sách các địa chỉ không có thật mà trình thu thập dữ liệu web sâu sử dụng để truy cập và lập chỉ mục các trang ẩn không?

Cập nhật

Sau câu trả lời và bình luận chỉ vào xác minh rằng Googlebot là trình thu thập thông tin, tôi xác nhận là không phải:

máy chủ $ 212.113.167.197
Con trỏ tên miền 197.167.113.212.in-addr.arpa cache.google.com.
$ lưu trữ cache.google.com
Không tìm thấy máy chủ cache.google.com: 3(NXDOMAIN)

Vì vậy, có vẻ như đó là một người dùng ác ý, điều này giải thích tại sao địa chỉ email đó không được ghi nhận là đến từ Google.

lá cờ vn
Cân nhắc chặn URL của biểu mẫu email trong robots.txt.Hoặc một hình ảnh xác thực? Tôi * đoán * Google bot sẽ không cố bẻ khóa hình ảnh xác thực của chính họ...
miguelmorin avatar
lá cờ jp
Đó là một ý tưởng tốt. Bạn có thể viết một câu trả lời?
Điểm:3
lá cờ kr
Bob

Kiểm tra địa chỉ IP của các yêu cầu bằng DNS ngược, cả ba yêu cầu đều đến từ cache.google.com.

Khi thực hiện tra cứu ngược, đừng quên kiểm tra xem tra cứu ngược tên máy chủ có trỏ đến địa chỉ IP mà bạn đang điều tra hay không.

> máy chủ 66.249.66.1
Con trỏ tên miền 1.66.249.66.in-addr.arpa crawl-66-249-66-1.googlebot.com.

> máy chủ thu thập dữ liệu-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com có ​​địa chỉ 66.249.66.1

Khi các bản ghi DNS đảo ngược và chuyển tiếp thẳng hàng với bạn, như trong ví dụ này, thì bạn có thể tin tưởng vào nó. Nếu không, bạn có thể có một quản trị viên cẩu thả hoặc một ví dụ về nỗ lực của kẻ tấn công nhằm che giấu nguồn gốc của chúng.

Vui lòng sử dụng truy vấn Whois trên địa chỉ IP thay vì tra cứu DNS ngược để xác định chủ sở hữu khi điều tra lạm dụng.

Bất kể bản ghi DNS đảo ngược nào, đặc biệt là địa chỉ IP của kẻ tấn công, không phải lúc nào cũng là thông tin đáng tin cậy.

Lưu ý rằng chủ sở hữu dải địa chỉ IP có thể đặt bất kỳ giá trị nào họ muốn trên các bản ghi DNS đảo ngược. Không có giới hạn nào về việc họ chỉ có thể sử dụng tên máy chủ mà họ sở hữu, cũng như không có giới hạn kỹ thuật cố hữu nào mà bản ghi DNS đảo ngược phải khớp với bản ghi DNS chuyển tiếp.
(Mặc dù hầu hết các nhà cung cấp siêng năng đều cố gắng thực thi điều đó khi họ cho phép khách hàng của mình thiết lập các bản ghi DNS đảo ngược tùy chỉnh trên địa chỉ IP công cộng mà họ sử dụng.)

Thiết lập một bản ghi DNS đảo ngược giả mạo là một thủ thuật từ kho vũ khí mà một số kẻ tấn công có thể sử dụng để che giấu dấu vết của chúng và/hoặc để tỏ ra lành tính hơn khi cố gắng phá vỡ các biện pháp kiểm soát truy cập.

miguelmorin avatar
lá cờ jp
Cảm ơn bạn! Truy vấn Whois trên địa chỉ IP (https://www.whois.com/whois/x.x.x.x) cho biết địa chỉ này đến từ Nhà cung cấp dịch vụ Internet và không liệt kê `cache.google.com` ở bất kỳ đâu trong bản ghi. Nếu các yêu cầu thực sự đến từ Google bot, chúng có nên liệt kê một tên miền `google.com` không?
lá cờ kr
Bob
Vui lòng tham khảo https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot để biết đề xuất của họ, bao gồm xác minh rằng bản ghi DNS đảo ngược được sử dụng thực sự khớp với bản ghi chuyển tiếp.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.