如何獲得具有相同頁面和內容名稱的網站？

August 1, 2011

我正在嘗試鏡像一個有頁面的網站：
http://www.site.com/news
和內容：
http://www.site.com/news/36-news/news-one
http://www.site.com/news/37-news/news-two
http://www.site.com/news/38-news/another-news-here
這就是我正在使用的
wget -m -Dsite.com -e robots=off -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG \
   -t 10 http://www.site.com &
當 wget 執行時，它將創建一個名為的 HTML 文件news。
我無法下載內容，因為同名的文件news已經存在（我正在執行 Ubuntu：目錄不能與文件同名）
wget下面是沒有執行時出現的消息-q
www.site.com/news/36-news：不是目錄
www.site.com/news/36-news/news-one：不是目錄

你可以試試--no-clobber。但是，在我看來，您可能更適合功能更全面的東西，例如httrack。這是命令行選項的手冊：http: //www.httrack.com/html/fcguide.html
您可以像這樣為所有目錄添加前綴：
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t"
因此，與您的類似的完整命令可能類似於：
httrack "http://www.site.com/news" -O /tmp/site -N "my%p/%n.%t" --retries=10 --ext-depth=0 --robots=0 +*.gif +*.png +*.jpg +*.jpeg +*.GIF +*.PNG +*.JPG +*.JPEG

引用自：https://unix.stackexchange.com/questions/17776

如何獲得具有相同頁面和內容名稱的網站？

相關問答

使用 wget 只下載第一個深度的外部連結

為什麼 wget 在嘗試鏡像站點時跳過文件

如何正確下載此網頁？

如何使用 wget 從 Onedrive 下載文件和文件夾？

curl和wget有什麼區別？

wget如何同時下載多個文件？