下載不在發布它們的網頁中的文件

January 22, 2021

我正在嘗試從此網頁下載所有文件：https ://www.lezioni4all.com/ase/appunti 所以我使用“wget”命令，它不起作用所以我做了一些研究，我發現在上面的網頁上（當我點擊要視覺化的資源時）它會在新網頁中打開文件，路徑類似於：http//something/resource/%10hi%10Ineedof%10thisresource
（如果您打開上面的連結並選擇頁面中的一個元素，例如“conflitti”，您將看到該項目有一種“預覽”，然後當您點擊最下面一行時，該資源將在一個新視窗上打開，其標題與您在首頁上視覺化的標題相同，但名稱中有一些百分比，例如 %10,%20…）。
您知道我如何下載無法下載的文件，只需將它們發布的頁面的 url 放在其中嗎？
我已經嘗試過這些命令：
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off --no-parent -P ~/Desktop/ASE_lezioni4all https://www.lezioni4all.com/ase/appunti

wget --page-requisites -p --convert-links  -P ~/Desktop/ASE_lezioni4all https://www.lezioni4all.com/ase/appunti
另外，我只收到在網際網路上打開白色視窗的空白文件。

PDF URL 嵌入在 javascriptonclick屬性中。你可以grep：
wget -qO- https://www.lezioni4all.com/ase/appunti | 
 grep -o "https://www\.lezioni4all\.com/files/[^']*\.pdf"
您可以使用 no-clobber 選項下載它們-nc（因為每個文件都連結了兩次）並且-i：
wget -nc -P ~/Desktop/ASE_lezioni4all -i &lt;(
 wget -qO- https://www.lezioni4all.com/ase/appunti |
 grep -o "https://www\.lezioni4all\.com/files/[^']*\.pdf")

引用自：https://unix.stackexchange.com/questions/630400

下載不在發布它們的網頁中的文件

相關問答

為什麼 curl 而不是 wget 對 software.download.prss.microsoft.com 存在信任問題？

僅從 Web 伺服器索引下載目錄/文件名列表

curl 命令的地址中有 / 是什麼意思？

curl和wget有什麼區別？

如何顯示重定向鏈中的所有 URL？

驗證 URL 是否存在