Lynx

Lynx 從文件中讀取 url 並下載連結

  • July 14, 2016
  1. 我的文件中有 500 個網址。
  2. 我需要提取出現在這些 url 上的所有連結。

如何使用 Lynx 讀取文件並提取文件中的連結?

下面的範例,file.txt每行 1 個連結,總共 500 行

https://itunes.apple.com/
https://play.google.com/

… 等等

這是一個改進的腳本:

#!/bin/sh
cat file.txt |while read url
do
   lynx -listonly -dump "$url"
done |
awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}'| \
sort -u

允許 lynx 辨識的任何類型的 URL(例如包括 ftp)。該腳本對結果進行排序,消除重複項(lynx 自己不會這樣做)。

進一步閱讀:

呼叫 list.txt 你的列表:

for i in $(cat list.txt) 
do 
 lynx -accept_all_cookies -dump $i |grep "http" |sed -e "s/^.*http/http/"
done

我建議將輸出重定向到某個文件。

引用自:https://unix.stackexchange.com/questions/295847