Command-Line
下載網頁的所有源文件
我想下載作為數據庫搜尋引擎的網頁的源文件。使用 curl 我只能下載主 html 頁面。我還想下載連結到網頁並在主 html 頁面中提到的所有 javascript 文件、css 文件和 php 文件。使用 curl/wget 或其他一些實用程序可以做到這一點嗎?
首先,您應該與網站運營商確認這是對其服務的可接受使用。之後,您可以執行以下操作:
wget -pk example.com
-p
獲取查看頁面的必要條件(Javascript、CSS 等)。-k
將頁面上的連結轉換為可用於本地查看的連結。來自
man wget
:-p, –page-必要條件
此選項使 Wget 下載正確顯示給定 HTML 頁面所需的所有文件。這包括內聯圖像、聲音和引用樣式表等內容。
$$ … $$ -k,–轉換連結
下載完成後,將文件中的連結進行轉換,使其適合本地查看。這不僅影響可見的超連結,還影響連結到外部內容的文件的任何部分,例如嵌入的圖像、到樣式表的連結、到非 HTML 內容的超連結等。