Dictionary

/usr/share/dict/words 中的單詞來自哪裡?

  • July 7, 2021

/usr/share/dict/words包含很多單詞。這個列表是如何產生的?它的內容在不同的 Unices 中是否相同?是否有任何標準規定它必須包含什麼?

到目前為止,我所能發現的是,在 Ubuntu/Debian 上,列表來自wordlist包,但它們的描述沒有提供有關列表實際生成方式的任何線索。

你問了多個問題,但我認為主要的問題是:

是否有任何標準規定它必須包含什麼?

據我所知,沒有。

鑑於此,您的相關問題:

這個列表是如何產生的?它的內容在不同的 Unices 中是否相同?

回答“這取決於每個不同的 Unix”。

將單詞列表作為作業系統的一部分包含在內的慣例來自實用程序,spell(1)實用程序將其用於原始拼寫檢查過程。

1982 年,貝爾實驗室的 MD McIlroy在學術論文“拼寫列表的開發”中描述了該拼寫檢查過程。

您應該檢查作業系統的包管理器,了解拼寫列表的來源、生成方式以及可用的替代方法。

在 Debian GNU+Linux 上,例如:

  • /usr/share/dict/words文件是使用 Debian“替代”系統管理的符號連結。
  • 提供該連結的常見單詞列表包是wamerican包。
  • 說明其單詞列表的封包檔wamerican來自SCOWL(面向拼寫檢查器的單詞列表)項目。

可以安裝許多其他單詞列表包;他們每個人都有“提供:詞表”欄位:

$ aptitude search '?provides(wordlist)' | wc -l
34

在不同的 Unices 上,您需要查看軟體包系統和文件以了解單詞列表的出處和替代方案。

引用自:https://unix.stackexchange.com/questions/213628