Arch-Linux

將語言環境設置為像 UTF-8 這樣的多字節編碼有什麼影響?

  • December 1, 2020

作為一個美國人,對於語言環境設置,我顯然可以選擇 en.UTF-8 或 ISO-8859-1 編碼。

大多數指南建議使用 UTF-8 編碼,但我有點擔心它是多字節編碼。使用這個有什麼後果?一些文本文件會有那些煩人的字元序列t h a t l o o k l i k e t h i s嗎?這兩種選擇的優缺點是什麼?

例如,假設我在圖形視窗管理器中使用瀏覽器。瀏覽器是否會因為我選擇 ISO-8859-1 作為語言環境而無法顯示 UTF-8 字元?

語言環境指定:

  1. 您的終端能夠接收和輸出哪些字元
  2. 您的終端應用程序能夠接收和輸出哪些字元
  3. 應用程序的語言

它不太可能影響您的圖形應用程序。

您提供的範例是 UTF-16 編碼,其最小數據單位為 16 位/2 字節。它是許多 Windows 應用程序的預設編碼,但除了某些實用程序(例如iconv.

我強烈建議不要切換到 C/ISO-8859-1,因為

  1. 您將無法處理 ASCII 未涵蓋的任何文本
  2. 您將無法在控制台中顯示 ASCII 未涵蓋的任何字元

最後,UTF-8 是一種多字節編碼,適用於 ASCII 未涵蓋的符號。ASCII 文本可以被認為是 UTF-8。

還要檢查這個答案:UTF-8 和 ISO-8859-1 有什麼區別?

引用自:https://unix.stackexchange.com/questions/622309