Wget
如何獲得具有相同頁面和內容名稱的網站?
我正在嘗試鏡像一個有頁面的網站:
http://www.site.com/news
和內容:
http://www.site.com/news/36-news/news-one http://www.site.com/news/37-news/news-two http://www.site.com/news/38-news/another-news-here
這就是我正在使用的
wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \ -t 10 http://www.site.com &
當 wget 執行時,它將創建一個名為 的 HTML 文件
news
。我無法下載內容,因為同名的文件
news
已經存在(我正在執行 Ubuntu:目錄不能與文件同名)
wget
下面是沒有執行時出現的消息-q
你可以試試
--no-clobber
。但是,在我看來,您可能更適合功能更全面的東西,例如httrack。這是命令行選項的手冊:http: //www.httrack.com/html/fcguide.html您可以像這樣為所有目錄添加前綴:
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"
因此,與您的類似的完整命令可能類似於:
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG