Arch-Linux
將語言環境設置為像 UTF-8 這樣的多字節編碼有什麼影響?
作為一個美國人,對於語言環境設置,我顯然可以選擇 en.UTF-8 或 ISO-8859-1 編碼。
大多數指南建議使用 UTF-8 編碼,但我有點擔心它是多字節編碼。使用這個有什麼後果?一些文本文件會有那些煩人的字元序列
t h a t l o o k l i k e t h i s
嗎?這兩種選擇的優缺點是什麼?例如,假設我在圖形視窗管理器中使用瀏覽器。瀏覽器是否會因為我選擇 ISO-8859-1 作為語言環境而無法顯示 UTF-8 字元?
語言環境指定:
- 您的終端能夠接收和輸出哪些字元
- 您的終端應用程序能夠接收和輸出哪些字元
- 應用程序的語言
它不太可能影響您的圖形應用程序。
您提供的範例是 UTF-16 編碼,其最小數據單位為 16 位/2 字節。它是許多 Windows 應用程序的預設編碼,但除了某些實用程序(例如
iconv
.我強烈建議不要切換到 C/ISO-8859-1,因為
- 您將無法處理 ASCII 未涵蓋的任何文本
- 您將無法在控制台中顯示 ASCII 未涵蓋的任何字元
最後,UTF-8 是一種多字節編碼,僅適用於 ASCII 未涵蓋的符號。ASCII 文本可以被認為是 UTF-8。
還要檢查這個答案:UTF-8 和 ISO-8859-1 有什麼區別?