Curl

下載不在發布它們的網頁中的文件

  • January 22, 2021

我正在嘗試從此網頁下載所有文件:https ://www.lezioni4all.com/ase/appunti 所以我使用“wget”命令,它不起作用所以我做了一些研究,我發現在上面的網頁上(當我點擊要視覺化的資源時)它會在新網頁中打開文件,路徑類似於:http//something/resource/%10hi%10Ineedof%10thisresource

(如果您打開上面的連結並選擇頁面中的一個元素,例如“conflitti”,您將看到該項目有一種“預覽”,然後當您點擊最下面一行時,該資源將在一個新視窗上打開,其標題與您在首頁上視覺化的標題相同,但名稱中有一些百分比,例如 %10,%20…)。

您知道我如何下載無法下載的文件,只需將它們發布的頁面的 url 放在其中嗎?

我已經嘗試過這些命令:

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off --no-parent -P ~/Desktop/ASE_lezioni4all https://www.lezioni4all.com/ase/appunti

wget --page-requisites -p --convert-links  -P ~/Desktop/ASE_lezioni4all https://www.lezioni4all.com/ase/appunti

另外,我只收到在網際網路上打開白色視窗的空白文件。

PDF URL 嵌入在 javascriptonclick屬性中。你可以grep

wget -qO- https://www.lezioni4all.com/ase/appunti | 
 grep -o "https://www\.lezioni4all\.com/files/[^']*\.pdf"

您可以使用 no-clobber 選項下載它們-nc(因為每個文件都連結了兩次)並且-i

wget -nc -P ~/Desktop/ASE_lezioni4all -i <(
 wget -qO- https://www.lezioni4all.com/ase/appunti |
 grep -o "https://www\.lezioni4all\.com/files/[^']*\.pdf")

引用自:https://unix.stackexchange.com/questions/630400