Lynx 從文件中讀取 url 並下載連結

July 14, 2016

我的文件中有 500 個網址。
我需要提取出現在這些 url 上的所有連結。
如何使用 Lynx 讀取文件並提取文件中的連結？
下面的範例，file.txt每行 1 個連結，總共 500 行
https://itunes.apple.com/
https://play.google.com/
… 等等

這是一個改進的腳本：
#!/bin/sh
cat file.txt |while read url
do
   lynx -listonly -dump "$url"
done |
awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}'| \
sort -u
允許 lynx 辨識的任何類型的 URL（例如包括 ftp）。該腳本對結果進行排序，消除重複項（lynx 自己不會這樣做）。
進一步閱讀：
Lynx 使用者指南

呼叫 list.txt 你的列表：
for i in $(cat list.txt) 
do 
 lynx -accept_all_cookies -dump $i |grep "http" |sed -e "s/^.*http/http/"
done
我建議將輸出重定向到某個文件。

引用自：https://unix.stackexchange.com/questions/295847

相關問答

如何在使用基於文本的瀏覽器的網站上解決 403 錯誤？

May 19, 2022

是否可以使用 wget 在同一伺服器上多次登錄？

April 23, 2022

lynx 和 pandoc 有什麼區別？

March 16, 2022

以文本形式獲取 curl 頁面

February 23, 2021

在需要登錄的 Linux VM 中使用命令行工具下載文件

February 8, 2021

Centos 8 的控制台瀏覽器

February 7, 2021