Wget

wget 的替代品

  • July 8, 2021

我在伺服器上有一個站點,基本上是一堆 HTML 頁面、圖片和聲音。

我失去了該伺服器的密碼,我需要獲取儲存在那裡的所有內容。我可以逐頁瀏覽並保存所有內容,但該網站有 100 多頁。

我正在使用 OSX。我曾嘗試使用wget,但我認為伺服器正在阻止它。

有什麼替代方法可以用來抓取該內容嗎?

如果伺服器正在阻止 wget,它很可能是基於 http 標頭的“User-agent:”欄位進行的,因為這是它首先知道的唯一方法。它也可能阻止您的 IP,在這種情況下使用不同的軟體將無濟於事,或者某些方案根據一組請求的速度來辨識自動化(因為真實的人不會在 3.2 秒內瀏覽 100 個頁面) . 我沒有聽說有人這樣做,但這是可能的。

我也沒有聽說過減慢 wget 的方法,但是有一種方法可以欺騙 user-agent 欄位:

wget --user-agent=""

將根據手冊頁完全刪除“使用者代理:”,因為它不是強制性的。如果伺服器不喜歡這樣,請嘗試--user-agent="Mozilla/5.0"哪個應該足夠好。

當然,如果您更好地解釋為什麼“認為伺服器正在阻止它”,那將會有所幫助。wget 說什麼,或者只是超時?

引用自:https://unix.stackexchange.com/questions/87152