Text-Processing

什麼是快速計算 4TB 文件中行數的方法?

  • December 22, 2021

我有一個從 Teradata 記錄導出的 4TB 大文本文件,我想知道該文件中有多少條記錄(在我的情況下為行)。

我怎樣才能快速有效地做到這一點?

如果此資訊尚未作為元數據存在於單獨的文件中(或嵌入在數據中,或通過查詢導出數據的系統可用)並且如果沒有可用的某種描述的索引文件,則計算數的最快方法是wc -l在文件上使用。

你真的不能更快地做到這一點。

要計算文件中的記錄數,您必須知道使用了什麼記錄分隔符並使用類似awk的方法來計算這些記錄。同樣,如果此資訊尚未作為元數據儲存在其他地方,並且無法通過對原始系統的查詢獲得,並且記錄本身尚未在文件中列舉和排序。

引用自:https://unix.stackexchange.com/questions/504892