Cut
將非常大的 xml 文件拆分為具有特定行數的小塊
這就是我從我的大 xml 文件 (2gb) 中提取前 100000 行的方法:
head source.xml -n 100000 > part.xml
如何繼續將它們拆分為 100000 行(或特定文件大小的塊),直到整個文件被分離?
你可以使用
split -l lines_per_file --additional-suffix=.xml source.xml part
這將讀取文件
source.xml
並將其拆分為lines_per_file
每行的塊。結果將被寫入一系列文件partaa.xml
,partab.xml
,partac.xml
, …如果要使用其他數量的後綴字元,可以使用
-a
選項指定一個數字,例如。-a 1
命名文件parta.xml
,partb.xml
,partc.xml
, …如果要拆分為文件大小的塊而不是行數,可以使用
-b size_in_bytes
代替-l lines_per_file
.請注意,生成的文件很可能是無效的 XML 文件(除非您碰巧得到一個文件作為回報,即您的輸入的行/字節太少而無法拆分)。