Linux
如何使用 .htaccess 阻止所有機器人?
我注意到 Bing 機器人不遵循 robots.txt 規則因為我禁止所有機器人但 Bing 機器人不遵循規則我使用 .htaccess 阻止一些機器人 是否有阻止所有機器人的程式碼?
所有機器人都應該被
/robots.txt
(而不是.htaccess
)阻止,像這樣:# cat robots.txt User-agent: * Disallow: /
該文件需要位於文件根目錄中並且全球可讀。通過在網路瀏覽器中打開它來檢查:
http://yourdomain/robots.txt
應該給出文件內容。機器人可能在技術上選擇不遵循這一點,但實際上應該這樣做。必應,我確定。
如果由於某種原因(不太可能與實際 Bing)這不起作用,請嘗試
# cat .htaccess SetEnvIfNoCase User-Agent .*bot.* search_robot SetEnvIfNoCase User-Agent .*bing.* search_robot SetEnvIfNoCase User-Agent .*crawl.* search_robot Order Deny,Allow Deny from env=search_robot Allow from All
您需要為此啟用
mod_setenvif
apache 模組,請參閱http://www.askapache.com/htaccess/setenvif.html