Wget
wget 遞歸輔助
我正在嘗試使用以下內容從網站上的目錄下載所有 pdf:
wget -r -l1 --no-parent -A.pdf http://www.eduplace.com/math/mw/practice/1/practice/
但是,我不斷收到“錯誤 404:未找到”。這似乎是一個非常簡單的用法,我不知道接下來要嘗試什麼。
wget -r 僅當所有指向 pdf 的連結都可以從給定的 URL 以某種方式訪問時才能工作。
您可以做的是“查看”特定站點http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html的 html 原始碼,以了解所有 pdf 連結是如何建構的。然後編寫一個小腳本自動執行此操作,如下所示:
wget http://eduplace.com/math/mw/practice/1/lp_1_u1sel.html CHAPT=$(grep chapter lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/') FEAT=$(grep feature lp_1_u1sel.html | sed 's/.*value="\([^"]*\)".*/\1/') for c in $CHAPT; do for f in $FEAT; do wget -O mw-practice-1-$c-$f.pdf https://www.eduplace.com/math/mw/practice/1/$c/$f.pdf done done