Linux

linux 命令 comm 可以處理 UTF-8 編碼的文本文件嗎?

  • June 22, 2017

我想比較兩個 UTF-8 編碼的文本文件。Linux 命令 diff 和 comm 可以處理這些編碼嗎?

為什麼不?

2 個俄語文本文件

$ file -i test1.txt test2.txt                                                                                                                                                    
test1.txt: text/plain; charset=utf-8                                                                                                                                                                               
test2.txt: text/plain; charset=utf-8

$ cat test1.txt                                                                                                                                                                  
Привет                     

$ cat test2.txt                                                                                                                                                                  
Добрый день                                                                                                                                                                                                        

$ diff test1.txt test2.txt                                                                                                                                                       
1c1                                                                                                                                                                                                                
< Привет                                                                                                                                                                                                           
---                                                                                                                                                                                                                
> Добрый день                                                                                                                                                                                                      

使用**-i參數強製文件列印有關編碼的資訊**

我創建了兩個包含一些字元的文件

一個用utf-8編碼,一個用iso-8859-1編碼

$ file -i *
file1: text/plain; charset=utf-8
file2: text/plain; charset=iso-8859-1

引用自:https://unix.stackexchange.com/questions/342470