奇怪的壓縮問題
我正在嘗試從我需要並且不想從我的 Centos 伺服器中刪除的舊記錄中壓縮一些原始感測器數據。
記錄的數據採用專有格式,但出於所有意圖和目的,我們可以將其描述為 1000 Hz 的 306 通道 PCM 32 位音頻記錄。文件頭中有幾百行明文元數據。文件在 7GB 左右的目錄中從 100MB 到 1.9GB 不等,處理後的文件目錄可高達 60GB,其中包含對數據應用過濾器的原始數據副本。
這是奇怪的一點。我可以使用 bzip2 將原始數據壓縮到原始大小的 30%,使用 pxz 可以將原始數據壓縮到原始大小的 26%。使用 ZPAQ 與 lzrip 的結果相似。但是處理過的數據 PCM 32 位變數我只能減少 10% 到 12% 的折扣。16 位短處理數據,我可以將其壓縮到原始大小的 50% 左右。處理數據簡化了記錄數據,並且記錄的變化較小。
有什麼建議麼?有人有類似的嗎?我希望在處理後的數據上盡可能節省空間,併計劃在之後檢查數據以確保它沒有錯誤。知道為什麼從處理中提取的簡化數據比原始數據的可壓縮性低嗎?
//edit - 查看 FLAC 但轉換回原始格式可能會有問題。並非不可能..仍在尋找。
//解決方案編輯。FLAC 不喜歡 370 個數據通道。但是我能夠通過創建自己的大字典並使用大文件的片段對其進行訓練來獲得一些壓縮。
你有關於格式的文件嗎?編寫一個小程序,將原始格式轉換為PCM wav + metadata +3d 數據,並返回。如果它是不同頻率上的信號疊加,則應該使用無損音頻壓縮算法(如 FLAC)很好地壓縮它。
FLAC 就像 MP3:它通過將音頻數據重寫為不同的格式來壓縮音頻數據。所以這不是我所說的“包裝器”(我不會將任何壓縮程序稱為“包裝器”)。但與 MP3 不同的是,壓縮是無損的:當您解壓縮時,您會得到完全相同的數據,就像在 bzip2 等中一樣。FLAC 對音頻數據的壓縮率約為 50%。
有多種方法可以將元數據儲存在壓縮音頻中,具體取決於容器格式。也可以將所有三個文件都放在一個存檔文件中,您選擇的格式,儘管壓縮的 PCM 數據不會被進一步壓縮。