Wget
wget 和 curl 將網頁保存為亂碼(加密?)
當我
https://www.wired.com/category/security/
使用wget
或下載時curl
,結果是亂碼/加密。是否可以從命令行保存該網頁(未加密/純 HTML)(如果可以,正確的方法是什麼)?
執行摘要:
下載的文件好像被壓縮了,你應該解壓縮它。
詳細解答
跑步:
wget https://www.wired.com/category/security/
下載
index.html
文件的結果
file
對下載文件執行命令顯示:$ file index.html index.html: gzip compressed data, from Unix
重命名文件並解壓縮將其轉換為 HTML 文件
$ mv index.html index.html.gz $ gunzip index.html.gz $ file index.html
index.html:HTML 文件,UTF-8 Unicode 文本,行很長,加粗
額外資訊 - 為什麼 wget 下載了壓縮文件?
如如何使用 GZIP 壓縮優化您的網站中所述:
現代 HTTP 伺服器/客戶端不是下載大型文本文件,而是使用壓縮的 HTTP 響應來減少傳輸文件的大小。