Wget
wget不下載文件304未修改
我正在嘗試使用遞歸下載網站
wget
:wget --recursive --page-requisites --no-parent --convert-links -e robots=off --domains orteil.dashnet.org orteil.dashnet.org/cookieclicker
它只下載某些文件,而保留其他文件。經過仔細檢查,我發現它不會下載返回的文件
304 Not Modified
。此文件
304 Not Modified
在 Inspector 中返回,並且未下載。我猜這是因為
wget
假設它不需要使用304
. 如何強制它下載文件?
304 Not Modified 由伺服器發送以響應
If-Modified-Since
標頭。它應該告訴客戶他擁有的副本是最新的。依次發送此標頭是wget
因為該文件已存在於輸出目錄中並帶有一些時間戳。所以強制下載的明顯方法是從一個空的輸出目錄開始。
您可能會遇到問題,因為您正在使用
--convert-links
而不是--backup-converted
,因為--convert-links
更改了文件上的時間戳(從而使其看起來更新)。
wget
編輯:在比我測試的最近的 s 中,還可以添加--no-if-modified-since