Cut

將非常大的 xml 文件拆分為具有特定行數的小塊

  • November 9, 2014

這就是我從我的大 xml 文件 (2gb) 中提取前 100000 行的方法:

head source.xml -n 100000 > part.xml

如何繼續將它們拆分為 100000 行(或特定文件大小的塊),直到整個文件被分離?

你可以使用

split -l lines_per_file --additional-suffix=.xml source.xml part

這將讀取文件source.xml並將其拆分為lines_per_file每行的塊。結果將被寫入一系列文件partaa.xml, partab.xml, partac.xml, …

如果要使用其他數量的後綴字元,可以使用-a選項指定一個數字,例如。-a 1命名文件parta.xml, partb.xml, partc.xml, …

如果要拆分為文件大小的塊而不是行數,可以使用-b size_in_bytes代替-l lines_per_file.

請注意,生成的文件很可能是無效的 XML 文件(除非您碰巧得到一個文件作為回報,即您的輸入的行/字節太少而無法拆分)。

引用自:https://unix.stackexchange.com/questions/166983