Curl
下載不在發布它們的網頁中的文件
我正在嘗試從此網頁下載所有文件:https ://www.lezioni4all.com/ase/appunti 所以我使用“wget”命令,它不起作用所以我做了一些研究,我發現在上面的網頁上(當我點擊要視覺化的資源時)它會在新網頁中打開文件,路徑類似於:http//something/resource/%10hi%10Ineedof%10thisresource
(如果您打開上面的連結並選擇頁面中的一個元素,例如“conflitti”,您將看到該項目有一種“預覽”,然後當您點擊最下面一行時,該資源將在一個新視窗上打開,其標題與您在首頁上視覺化的標題相同,但名稱中有一些百分比,例如 %10,%20…)。
您知道我如何下載無法下載的文件,只需將它們發布的頁面的 url 放在其中嗎?
我已經嘗試過這些命令:
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off --no-parent -P ~/Desktop/ASE_lezioni4all https://www.lezioni4all.com/ase/appunti wget --page-requisites -p --convert-links -P ~/Desktop/ASE_lezioni4all https://www.lezioni4all.com/ase/appunti
另外,我只收到在網際網路上打開白色視窗的空白文件。
PDF URL 嵌入在 javascript
onclick
屬性中。你可以grep
:wget -qO- https://www.lezioni4all.com/ase/appunti | grep -o "https://www\.lezioni4all\.com/files/[^']*\.pdf"
您可以使用 no-clobber 選項下載它們
-nc
(因為每個文件都連結了兩次)並且-i
:wget -nc -P ~/Desktop/ASE_lezioni4all -i <( wget -qO- https://www.lezioni4all.com/ase/appunti | grep -o "https://www\.lezioni4all\.com/files/[^']*\.pdf")