下載網頁的所有源文件

June 19, 2014

我想下載作為數據庫搜尋引擎的網頁的源文件。使用 curl 我只能下載主 html 頁面。我還想下載連結到網頁並在主 html 頁面中提到的所有 javascript 文件、css 文件和 php 文件。使用 curl/wget 或其他一些實用程序可以做到這一點嗎？

首先，您應該與網站運營商確認這是對其服務的可接受使用。之後，您可以執行以下操作：
wget -pk example.com
-p獲取查看頁面的必要條件（Javascript、CSS 等）。-k將頁面上的連結轉換為可用於本地查看的連結。
來自man wget：
-p, –page-必要條件
此選項使 Wget 下載正確顯示給定 HTML 頁面所需的所有文件。這包括內聯圖像、聲音和引用樣式表等內容。
$$ … $$ -k，–轉換連結
下載完成後，將文件中的連結進行轉換，使其適合本地查看。這不僅影響可見的超連結，還影響連結到外部內容的文件的任何部分，例如嵌入的圖像、到樣式表的連結、到非 HTML 內容的超連結等。

引用自：https://unix.stackexchange.com/questions/137977

相關問答

僅從 Web 伺服器索引下載目錄/文件名列表

January 28, 2022

從網站遞歸下載

August 6, 2018

wget 僅使用 {..} 的父頁面

April 16, 2018

從終端下載文件

February 26, 2018

將下載實用程序（如 wget）的 url 合併到一行中

January 14, 2018

如何正確下載此網頁？

May 17, 2022