Lynx
Lynx 從文件中讀取 url 並下載連結
- 我的文件中有 500 個網址。
- 我需要提取出現在這些 url 上的所有連結。
如何使用 Lynx 讀取文件並提取文件中的連結?
下面的範例,
file.txt
每行 1 個連結,總共 500 行https://itunes.apple.com/ https://play.google.com/
… 等等
這是一個改進的腳本:
#!/bin/sh cat file.txt |while read url do lynx -listonly -dump "$url" done | awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}'| \ sort -u
允許 lynx 辨識的任何類型的 URL(例如包括 ftp)。該腳本對結果進行排序,消除重複項(lynx 自己不會這樣做)。
進一步閱讀:
呼叫 list.txt 你的列表:
for i in $(cat list.txt) do lynx -accept_all_cookies -dump $i |grep "http" |sed -e "s/^.*http/http/" done
我建議將輸出重定向到某個文件。