Wget

wget 遞歸輔助

  • September 20, 2016

我正在嘗試使用以下內容從網站上的目錄下載所有 pdf:

wget -r -l1 --no-parent -A.pdf http://www.eduplace.com/math/mw/practice/1/practice/

但是,我不斷收到“錯誤 404:未找到”。這似乎是一個非常簡單的用法,我不知道接下來要嘗試什麼。

wget -r 僅當所有指向 pdf 的連結都可以從給定的 URL 以某種方式訪問時才能工作。

您可以做的是“查看”特定站點http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html的 html 原始碼,以了解所有 pdf 連結是如何建構的。然後編寫一個小腳本自動執行此操作,如下所示:

wget http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html
CHAPT=$(grep chapter  lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
FEAT=$(grep feature  lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/')
for c in $CHAPT; do
   for f in $FEAT; do
       wget -O mw-practice-1-$c-$f.pdf https://www.eduplace.com/math/mw/practice/1/$c/$f.pdf
   done
done

引用自:https://unix.stackexchange.com/questions/311101