Wget

使用 wget 鏡像站點,該站點僅使用 gzip 響應

  • September 22, 2020

我正在嘗試鏡像站點,但伺服器僅響應 gzip 頁面,因此 wget 不會遞歸。我四處搜尋,有一些關於向 wget 添加 gzip 支持的更新檔的參考,但它們似乎已經過時了。有沒有辦法做到這一點?如果不是,我正在考慮通過 nginx 反向代理它。

你有4種方式:

  1. wget一頁,gunzip它並從 html 再次處理它……迭代直到完成:
wget -m http://example.org/page.html
find . -name \*gz -exec gzip -d {} \;
find . -name \*html -exec wget -M -F {} \;</code></pre>

這會很慢,但應該可以。 2. 安裝 Privoxy 並將其配置為解壓縮請求的頁面:

+防止壓縮

防止網站壓縮數據。一些網站會這樣做,這對於在沒有 zlib 支持的情況下建構時 Privoxy 是一個問題,因為 +filter 和 +gif-deanimate 不適用於壓縮數據。不過,會減慢與這些網站的連接速度。

  1. Privoxy 或其他代理也可能能夠獲取壓縮頁面並將未壓縮的副本傳遞給客戶端;Google為它。
  2. wget不會發送請求gzip內容的“Accept-Encoding:gzip”標頭…檢查您的原因。也許您有一個正在添加它的代理?您還可以使用 Privoxy 刪除該標頭。

引用自:https://unix.stackexchange.com/questions/58370