Điểm:1

Tại sao google lại spam trang Wordpress của tôi với các từ khóa hẹn hò?

lá cờ br

Tôi có một trang Wordpress nhận được hơn 100 nghìn yêu cầu mỗi ngày với cùng một yêu cầu bên dưới. Tất cả các GET này đến từ khoảng 200 IP khác nhau trong cùng một mạng Google (66.249.x.x). Không có /Tìm kiếm/ route trên trang web, nhưng phải có thứ gì đó trong Wordpress (Relevanssi?) đang xử lý yêu cầu này vì có lỗi đối chiếu UTF-8 trong DB, có thể là do biểu tượng cảm xúc hoặc ký tự cyrillic:

Lỗi cơ sở dữ liệu WordPress Kết hợp đối chiếu bất hợp pháp (utf8_General_ci,IMPLICIT) và (utf8mb4_unicode_ci,COERCIBLE) cho thao tác 'thích' cho truy vấn \n\t\t\tSELECT COUNT(DISTINCT(relevanssi.doc))\n\t\t\t\tTỪ 49qi0c_relevanssi AS relevanssi\n\t\t\t\t Ở ĐÂU (relevanssi.term THÍCH 'berbat\xf0\x9f\xaa\x80\xe2\x9d\xa4\xef\xb8\x8f\xef\xb8\x8fwww%' HOẶC relevanssi.term_reverse THÍCH CONCAT(REVERSE('berbat\xf0\x9f\xaa\x80\xe2\x9d\xa4\xef\xb8\x8f\xef\xb8\x8fwww'), '%')) được tạo bởi require('wp-blog-header.php'), wp, WP->main, WP->query_posts, WP_Query->truy vấn, WP_Query->get_posts, apply_filters_ref_array('posts_pre_query'), WP_Hook->apply_filters, relevanssi_query, relevanssi_do_query, relevanssi_search, relevanssi_search, relevanssi_generate_df_counts, QM_DB->truy vấn

Tôi đã kiểm tra diễn đàn Relevanssi và thấy ai đó đăng gần như cùng một vấn đề.Nó được cho là 'vô hại' và dường như không gây lo ngại cho bất kỳ ai nên chủ đề đã bị đóng lại. Vấn đề là, tải trọng tuyệt đối của các yêu cầu này đang bắt đầu làm chậm trang web và các lỗi được tạo ra đang lấp đầy nhật ký bên dưới /var/ vách ngăn. Tôi đã chặn /19 từ Google ngay bây giờ nhưng có lẽ không phải là câu trả lời đúng vì đó là Google (xếp hạng trang và tất cả những thứ đó). Có ai từng thấy loại nội dung này từ Google trước đây chưa?

ĐƯỢC /search/%F0%9F%AA%80BEST+HẸN HÒ+SITE%E2%9D%A4%EF%B8%8F%EF%B8%8F%C4%B0ngiliz+kad%C4%B1n+i%C3%A7+% C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat%F0%9F%AA%80%E2%9D%A4%EF% B8%8F%EF%B8%8FWww.MtSp.XyZ%F0%9F%AA%80%E2%9D%A4%EF%B8%8F%EF%B8%8F%C4%B0ngiliz+kad%C4%B1n+ i%C3%A7+%C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat+%C4%B0ngiliz+kad%C4%B1n+ i%C3%A7+%C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat+%C4%B0ngiliz+kad%C4%B1n+ i%C3%A7+%C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat/feed/rss2/?page_number_9=1&page_number_15=7&page_number_14 =3&page_number_16=3&page_number_10=1&page_number_12=33&page_number_17=3&page_number_13=3&page_number_11=17 HTTP/1.1" 200 718084 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, như Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (tương thích; Googlebot/2.1; +http://www.google.com/bot.html)

lá cờ vn
Bạn có thể đưa ra một IP ví dụ thực tế của một trong số này không? Điều này về cơ bản trông giống như thư rác liên kết giới thiệu (một số trang web hiển thị "tìm kiếm hàng đầu/gần đây" trong thanh bên); nó có thể chỉ là một máy chủ bị xâm nhập trong nền tảng đám mây của Google, không phải GoogleBot thực tế. Xác minh tại https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot.
Nstevens avatar
lá cờ br
Chắc chắn rồi, một IP là 66.249.70.19. Nó nằm trong phạm vi #21 tại đây: https://www.gstatic.com/ipranges/goog.json. Tôi nghĩ rằng có một số địa chỉ IP không có trong khối mạng đó nhưng phần lớn trong số đó thì có. Tôi sẽ kiểm tra thông tin bạn đã đăng. Cảm ơn!
lá cờ vn
Hấp dẫn; nó theo dõi trở lại GoogleBot. Tôi tự hỏi liệu có ai đó đang lạm dụng "thu thập dữ liệu với tư cách GoogleBot" trong Google Search Console hay tạo một trang trỏ đến các URL tìm kiếm này mà Google thu thập dữ liệu và cho rằng đó là thiện chí hay không.
Nstevens avatar
lá cờ br
Không chắc tính năng đó là gì nhưng tôi sẽ chạy nó bởi quản trị viên WP của chúng tôi. Anh ấy lo ngại rằng thứ gì đó với plugin SEO của anh ấy có thể yêu cầu Google thu thập dữ liệu trang web cho các cụm từ đó. Có một đề xuất khác, đây có thể là máy chủ Google App Engine (máy chủ lưu trữ VM?). Tôi không rành về các dịch vụ của Google nhưng có vẻ phù hợp.
lá cờ in
Sử dụng bảng điều khiển tìm kiếm của Google, nó có thể cho bạn biết lý do tại sao hoặc ít nhất là nhận được gợi ý sau vài ngày.
lá cờ jp
thêm `/search/ vào `robots.txt`
Nstevens avatar
lá cờ br
Tôi ước gì nó dễ như vậy. `robots.txt` hoàn toàn là tùy ý. Bất kỳ khách hàng nào cũng có thể bỏ qua nó.
lá cờ vn
@Nstevens Mặc dù đúng nhưng GoogleBot **chắc chắn** tôn trọng điều đó.
Nstevens avatar
lá cờ br
À, được rồi. Tôi hiểu những gì bạn đang nói bây giờ @AlexD. Cảm ơn.

Đăng câu trả lời

Hầu hết mọi người không hiểu rằng việc đặt nhiều câu hỏi sẽ mở ra cơ hội học hỏi và cải thiện mối quan hệ giữa các cá nhân. Ví dụ, trong các nghiên cứu của Alison, mặc dù mọi người có thể nhớ chính xác có bao nhiêu câu hỏi đã được đặt ra trong các cuộc trò chuyện của họ, nhưng họ không trực giác nhận ra mối liên hệ giữa câu hỏi và sự yêu thích. Qua bốn nghiên cứu, trong đó những người tham gia tự tham gia vào các cuộc trò chuyện hoặc đọc bản ghi lại các cuộc trò chuyện của người khác, mọi người có xu hướng không nhận ra rằng việc đặt câu hỏi sẽ ảnh hưởng—hoặc đã ảnh hưởng—mức độ thân thiện giữa những người đối thoại.