如何從 HTML 文件中提取特定 URL

March 4, 2016

我有一個 HTML 文件，沒有任何格式。我想提取https://sitename.com/ */ending 形式的 URL，並且只提取這些 URL。
這樣做的最佳方法是什麼？
這個問題不是重複的。另一個問題是詢問有關提取特定命名 DIV 的內容。這是在詢問如何提取 URL 列表，以適應特定格式。

一個簡單的 grep 應該為您執行此操作：
grep -o "https://sitename.com/.+/ending" somefile.html
（注意：我現在沒有 *nix 機器來測試它。）
編輯：啟動我的 linux 盒子，發現它可以工作：
grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html
A.+會貪婪並且擷取太多。使用否定斷言將正確地找到子目錄的結尾。請注意，這不會找到嵌套的子目錄，例如https://sitename.com/sub/directory/ending.

引用自：https://unix.stackexchange.com/questions/267712

相關問答

ansible lineinfile 模組以匹配 variable_value

October 10, 2022

如何在啟用的 crontab 條目上方獲得一行

August 28, 2022

通過mac os終端搜尋沒有特定標籤的.xml文件

August 17, 2022

使用 awk 在 txt 文件中按 unicode 搜尋

August 16, 2022

在txt文件中搜尋然後在新的txt文件中列印

August 15, 2022

如果值在 2 列中匹配，則 awk 從文件 2 獲取文件 1 的列值

June 24, 2022