Sed

如何使用 sed 從文件中刪除 html 標籤?

  • April 19, 2017

我有一個混合了我需要的普通文本和 html-tags 的文件。我知道使用 REGEX 可以辨識 html 標籤,使用 sed 可以將它們交換為空字元串,但我不知道如何具體應用它。

如果你不堅持sed,最好的辦法就是這樣做lynx

lynx --dump <filename>.html

這將以 html 程式碼打算顯示的格式輸出 html 文件的內容。唯一的條件是文件名應該有一個.html.htm副檔名。

我強烈建議使用名為html2text( 1 ) ( 2 ) 的任何一個程序。解析 HTML 比看起來要困難得多。

引用自:https://unix.stackexchange.com/questions/185126