Wget

wget - 如何以遞歸方式下載特定的 mime 類型/擴展(即僅文本)

  • November 14, 2018

如何下載完整的網站,但忽略所有二進製文件。

wget使用標誌具有此功能,-r但它會下載所有內容,並且某些網站對於低資源機器來說太多了,並且由於我正在下載該網站的特定原因,它沒有用處。

這是我使用的命令行:(wget -P 20 -r -l 0 http://www.omardo.com/blog我自己的部落格)

您可以指定允許的列表。不允許的文件名模式:

允許:

-A LIST
--accept LIST

不允許:

-R LIST
--reject LIST

LIST是逗號分隔的文件名模式/副檔名列表。

您可以使用以下保留字元來指定模式:

  • *
  • ?
  • [
  • ]

例子:

  • 只下載PNG文件:-A png
  • 不要下載 CSS 文件:-R css
  • 不要下載以“avatar”開頭的PNG文件:-R avatar*.png

如果文件沒有副檔名。文件名沒有您可以使用的模式,我猜您需要 MIME 類型解析(請參閱Lars Kotthoffs 答案)。

您可以嘗試用這個(也在此處)修補 wget 以按 MIME 類型進行過濾。不過這個更新檔現在已經很老了,所以它可能不再起作用了。

引用自:https://unix.stackexchange.com/questions/53397