Wget

如何獲得具有相同頁面和內容名稱的網站?

  • August 1, 2011

我正在嘗試鏡像一個有頁面的網站:

http://www.site.com/news

和內容:

http://www.site.com/news/36-news/news-one
http://www.site.com/news/37-news/news-two
http://www.site.com/news/38-news/another-news-here

這就是我正在使用的

wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \
   -t 10 http://www.site.com &

當 wget 執行時,它將創建一個名為 的 HTML 文件news

我無法下載內容,因為同名的文件news已經存在(我正在執行 Ubuntu:目錄不能與文件同名)

wget下面是沒有執行時出現的消息-q

www.site.com/news/36-news:不是目錄

www.site.com/news/36-news/news-one:不是目錄

你可以試試--no-clobber。但是,在我看來,您可能更適合功能更全面的東西,例如httrack。這是命令行選項的手冊:http: //www.httrack.com/html/fcguide.html

您可以像這樣為所有目錄添加前綴:

httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"

因此,與您的類似的完整命令可能類似於:

httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG

引用自:https://unix.stackexchange.com/questions/17776