Search
如何從 HTML 文件中提取特定 URL
我有一個 HTML 文件,沒有任何格式。我想提取https://sitename.com/ */ending 形式的 URL,並且只提取這些 URL。
這樣做的最佳方法是什麼?
這個問題不是重複的。另一個問題是詢問有關提取特定命名 DIV 的內容。這是在詢問如何提取 URL 列表,以適應特定格式。
一個簡單的 grep 應該為您執行此操作:
grep -o "https://sitename.com/.+/ending" somefile.html
(注意:我現在沒有 *nix 機器來測試它。)
編輯:啟動我的 linux 盒子,發現它可以工作:
grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html
A
.+
會貪婪並且擷取太多。使用否定斷言將正確地找到子目錄的結尾。請注意,這不會找到嵌套的子目錄,例如https://sitename.com/sub/directory/ending
.