Wget
為什麼 wget 在嘗試鏡像站點時跳過文件
我在這個網站上執行 wget:http: //demo.codestag.com/geeklove/但它只返回一個 index.html
wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains --no-parent http://demo.codestag.com/geeklove
我嘗試像這裡一樣欺騙使用者代理:http ://www.askapache.com/linux/wget-header-trick.html#Testing_Wget_Trick但仍然不行。
當我使用 –debug 選項時,它顯示它跳過了所有其他頁面。
選項
--domains
指定要遵循的域列表。因為在這個選項之後你沒有指定任何東西 wget 只下載那些直接指定的文件。如果您刪除此選項或將其替換為,
--domains demo.codestag.com
則 wget 仍將由於此伺服器上的*robots.txt拒絕下載更多文件。*要忽略此文件,您必須指定-e robots=off
.如果您遇到更多問題,指定
-d
(--debug
) 以查看困擾 wget 的問題總是有幫助的。