Sed
如何使用 sed 從文件中刪除 html 標籤?
我有一個混合了我需要的普通文本和 html-tags 的文件。我知道使用 REGEX 可以辨識 html 標籤,使用 sed 可以將它們交換為空字元串,但我不知道如何具體應用它。
如果你不堅持
sed
,最好的辦法就是這樣做lynx
。
lynx --dump <filename>.html
這將以 html 程式碼打算顯示的格式輸出 html 文件的內容。唯一的條件是文件名應該有一個
.html
或.htm
副檔名。