Wget

為什麼 wget 在嘗試鏡像站點時跳過文件

  • June 19, 2013

我在這個網站上執行 wget:http: //demo.codestag.com/geeklove/但它只返回一個 index.html

wget --recursive --no-clobber --page-requisites --html-extension --convert-links --restrict-file-names=windows --domains --no-parent http://demo.codestag.com/geeklove

我嘗試像這裡一樣欺騙使用者代理:http ://www.askapache.com/linux/wget-header-trick.html#Testing_Wget_Trick但仍然不行。

當我使用 –debug 選項時,它顯示它跳過了所有其他頁面。

選項--domains指定要遵循的域列表。因為在這個選項之後你沒有指定任何東西 wget 只下載那些直接指定的文件。

如果您刪除此選項或將其替換為,--domains demo.codestag.com則 wget 仍將由於此伺服器上的*robots.txt拒絕下載更多文件。*要忽略此文件,您必須指定-e robots=off.

如果您遇到更多問題,指定-d( --debug) 以查看困擾 wget 的問題總是有幫助的。

引用自:https://unix.stackexchange.com/questions/79952