Search

如何從 HTML 文件中提取特定 URL

  • March 4, 2016

我有一個 HTML 文件,沒有任何格式。我想提取https://sitename.com/ */ending 形式的 URL,並且只提取這些 URL。

這樣做的最佳方法是什麼?

這個問題不是重複的。另一個問題是詢問有關提取特定命名 DIV 的內容。這是在詢問如何提取 URL 列表,以適應特定格式。

一個簡單的 grep 應該為您執行此操作:

grep -o "https://sitename.com/.+/ending" somefile.html

(注意:我現在沒有 *nix 機器來測試它。)

編輯:啟動我的 linux 盒子,發現它可以工作:

grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html

A.+會貪婪並且擷取太多。使用否定斷言將正確地找到子目錄的結尾。請注意,這不會找到嵌套的子目錄,例如https://sitename.com/sub/directory/ending.

引用自:https://unix.stackexchange.com/questions/267712