文件、awk 和 iconv 自動適應 tex 文件編碼

March 10, 2017

我有一組混合編碼的 tex 文件，例如（輸出的子集file -i *.tex）
f1.tex: text/plain; charset=utf-8
f2.tex: text/plain; charset=utf-8
f3.tex: text/x-tex; charset=us-ascii
f4.tex: text/plain; charset=iso-8859-1
f5.tex: text/plain; charset=us-ascii
我想將它們全部轉換為utf-8，尤其是那些編碼的iso-8859-1. 我可以使用（或類似方法）手動執行此操作
iconv -f ISO-8859-1 -t UTF-8 f4.tex &gt; tmp && mv tmp f4.tex
但我認為這很可能使用awk與上述的組合，file -i即awk使用iconv.
我的知識awk相當有限。我沒有比這更進一步：
$ file -i *.tex | awk '{print $1, $3}'
f1.tex: charset=utf-8
f2.tex: charset=utf-8
f3.tex: charset=us-ascii
f4.tex: charset=iso-8859-1
f5.tex: charset=us-ascii
任何幫助表示讚賞！特別是，我不知道如何從列中刪除冒號:和子字元串。charset=

似乎在這裡使用 sed 代替 awk 要好得多：
file -i *tex | sed \ 
's/^$[^:]*$: .*set=$.*$/iconv -f \2 -t UTF-8 \1 &gt; tmp \&\& mv tmp \1/e'
它將執行sed基於file -i輸出的命令。如果您想查看命令列表而不執行僅刪除esed 腳本末尾的標誌，如下所示：
file -i *tex | sed \
's/^$[^:]*$: .*set=$.*$/iconv -f \2 -t UTF-8 \1 &gt; tmp \&\& mv tmp \1/'

引用自：https://unix.stackexchange.com/questions/36631

文件、awk 和 iconv 自動適應 tex 文件編碼

相關問答

ASCII 到 ANSI 的轉換不起作用

如何在多個文件中用 UTF-8 字元替換 Unicode 程式碼數字？

將文本文件數據轉換為表格

將時間從紀元毫秒轉換/替換為日誌文件中人類可讀的日期

如何將 mojibake 文本轉換為可讀形式？

如何在 Linux 中將空格分隔的文件轉換為 Excel 文件？