Linux

如何使用 .htaccess 阻止所有機器人?

  • October 17, 2019

我注意到 Bing 機器人不遵循 robots.txt 規則因為我禁止所有機器人但 Bing 機器人不遵循規則我使用 .htaccess 阻止一些機器人 是否有阻止所有機器人的程式碼?

所有機器人都應該被/robots.txt(而不是.htaccess)阻止,像這樣:

# cat robots.txt
User-agent: *
Disallow: /

該文件需要位於文件根目錄中並且全球可讀。通過在網路瀏覽器中打開它來檢查:http://yourdomain/robots.txt應該給出文件內容。

機器人可能在技術上選擇不遵循這一點,但實際上應該這樣做。必應,我確定。

如果由於某種原因(不太可能與實際 Bing)這不起作用,請嘗試

# cat .htaccess
SetEnvIfNoCase User-Agent .*bot.* search_robot
SetEnvIfNoCase User-Agent .*bing.* search_robot
SetEnvIfNoCase User-Agent .*crawl.* search_robot
Order Deny,Allow
Deny from env=search_robot
Allow from All

您需要為此啟用mod_setenvifapache 模組,請參閱http://www.askapache.com/htaccess/setenvif.html

引用自:https://unix.stackexchange.com/questions/546440