Wget
wget - 如何以遞歸方式下載特定的 mime 類型/擴展(即僅文本)
如何下載完整的網站,但忽略所有二進製文件。
wget
使用標誌具有此功能,-r
但它會下載所有內容,並且某些網站對於低資源機器來說太多了,並且由於我正在下載該網站的特定原因,它沒有用處。這是我使用的命令行:(
wget -P 20 -r -l 0 http://www.omardo.com/blog
我自己的部落格)
您可以指定允許的列表。不允許的文件名模式:
允許:
-A LIST --accept LIST
不允許:
-R LIST --reject LIST
LIST
是逗號分隔的文件名模式/副檔名列表。您可以使用以下保留字元來指定模式:
*
?
[
]
例子:
- 只下載PNG文件:
-A png
- 不要下載 CSS 文件:
-R css
- 不要下載以“avatar”開頭的PNG文件:
-R avatar*.png
如果文件沒有副檔名。文件名沒有您可以使用的模式,我猜您需要 MIME 類型解析(請參閱Lars Kotthoffs 答案)。
您可以嘗試用這個(也在此處)修補 wget 以按 MIME 類型進行過濾。不過這個更新檔現在已經很老了,所以它可能不再起作用了。