如何在 `grep` 中使用十六進制程式碼指定字元？

March 18, 2022

我正在使用以下命令來 grep 十六進制程式碼 0900（而不是 अ）到 097F（而不是 व）的字元集範圍。如何使用十六進制程式碼代替 अ 和 व？
bzcat archive.bz2 | grep -v '&lt;[अ-व]*\s' | tr '[:punct:][:blank:][:digit:]' '\n' | uniq | grep -o '^[अ-व]*$' | sort -f | uniq -c | sort -nr | head -50000 | awk '{print "&lt;w f=\""$1"\"&gt;"$2"&lt;/w&gt;"}' &gt; hindi.xml
我得到以下輸出：
   &lt;w f="399651"&gt;और&lt;/w&gt;
   &lt;w f="264423"&gt;एक&lt;/w&gt;
   &lt;w f="213707"&gt;पर&lt;/w&gt;
   &lt;w f="74728"&gt;कर&lt;/w&gt;
   &lt;w f="44281"&gt;तक&lt;/w&gt;
   &lt;w f="35125"&gt;कई&lt;/w&gt;
   &lt;w f="26628"&gt;द&lt;/w&gt;
   &lt;w f="23981"&gt;इन&lt;/w&gt;
   &lt;w f="22861"&gt;जब&lt;/w&gt; 
   ...
我只想在上面的命令中使用十六進制程式碼而不是 अ 和 व。
如果根本不可能使用十六進制程式碼，我可以使用 unicode 而不是字元集的十六進制程式碼（‘अ-व’）嗎？
我正在使用 Ubuntu 10.04

查看grep：查找所有包含日文漢字的行。
文本通常以 UTF-8 編碼；所以你必須使用 UTF-8 編碼中使用的字節的十六進制值。
grep "["$'\xe0\xa4\x85'"-"$'\xe0\xa4\xb5'"]"
和
grep '[अ-व]'
是等效的，並且它們執行基於字元類/括號表達式語言環境的匹配（即，匹配取決於梵文腳本的排序規則（即，匹配不是“\u0905 和 \0935 之間的任何字元”，而是“梵文 A 和梵文 VA 之間的任何排序”；可能存在差異。
（$'...'是 bash、ksh 和 zsh 的“ANSI-C 轉義字元串”語法。它只是一種更簡單的輸入字元的方法。您也可以使用\uXXXX和\UXXXXXXXX轉義直接詢問 bash 和 zsh 中的程式碼點。）
另一方面，你有這個（注意 -P）：
grep -P "\xe0\xa4[\x85-\xb5]"
這將與這些字節值進行二進制匹配。

引用自：https://unix.stackexchange.com/questions/19491

如何在 `grep` 中使用十六進制程式碼指定字元？

相關問答

讓 grep 理解字節轉義

從 html 中按模式抓取兩個字元串

如果一個文件中的列與另一個文件中的列部分匹配，則匹配，然後列印兩個文件中的列

如何在經常一起出現的多個文件中查找關鍵字？

列印 httpie 命令的輸出，然後通過管道傳輸到 grep

用 utf-8 功能替換 tr

如何在 grep 中使用十六進制程式碼指定字元？

相關問答

讓 grep 理解字節轉義

從 html 中按模式抓取兩個字元串

如果一個文件中的列與另一個文件中的列部分匹配，則匹配，然後列印兩個文件中的列

如何在經常一起出現的多個文件中查找關鍵字？

列印 httpie 命令的輸出，然後通過管道傳輸到 grep

用 utf-8 功能替換 tr

如何在 `grep` 中使用十六進制程式碼指定字元？