Regular-Expression

從文件的每一行中提取字元串

August 1, 2021

我有一個文件，其中每一行都包含一個句子，其中在字元 > 和 < 之間找到一個單詞。例如：
Martin went shopping at &gt;Wallmart&lt; and lost his wallet
French food &gt;tastes&lt; great
我正在尋找一個從 shell 執行的命令，該命令將為每一行列印“>”和“<”中的單詞。
提前致謝。

對於awk：
awk -F '[&gt;&lt;]' '{print $2}' file
這會將欄位分隔符設置為>or<並列印第二個欄位，該欄位位於這兩個字元之間。
對於sed：
sed 's|.*&gt;\(.*\)&lt;.*|\1|' file
它使用 () 來列印介於>它和它之後的<任何東西和它之前的任何東西之間的東西。
輸出
Wallmart
tastes

怎麼樣grep？
grep -oP "(?&lt;=\&gt;).*(?=&lt;)"  file
輸出：
Wallmart
tastes
編輯：
遵循@Toby Speight 評論，並假設 > 和 < 之間只有單詞，以避免在其他上下文中匹配 > 和 < 命令應該是
grep -oP "(?&lt;=\&gt;)\w+(?=&lt;)"  file

引用自：https://unix.stackexchange.com/questions/529063

相關問答

如何使用搜尋模式文件在 csv 的最後一列中搜尋確切的單詞？

August 27, 2020

Text-Processing

使用 Unix 命令實現排序 URL 正則表達式

August 11, 2020

如果正則表達式不匹配，則 awk 退出程式碼

May 30, 2020

GAWK 使用括號作為 FS

February 22, 2017

Regular-Expression

gawk 中的正則表達式問題（’<’ 不起作用）

January 5, 2017

分隔符和詞尾之間拆分（）字元串的 ERE 正則表達式

January 17, 2014