Pdf

textutil 將 PDF 轉換為 txt 產生亂碼輸出

  • March 7, 2019

我正在嘗試使用textutil. 如果有可以轉換和不能轉換的特殊類型的 PDF,我不會。我要轉換的文件是可搜尋的格式,我認為這是最低要求。當我轉換文件的時候,文本文件輸出完就亂碼了。這是我的程式碼:

textutil -convert txt example.pdf

以下是一些第一行,以防有助於確定我哪裡出錯了:

%PDF-1.3
%ƒÂÚÂÎßÛ†–ƒ∆
4 0 obj
<< /Length 5 0 R /Filter /FlateDecode >>
stream
xÌõYè‹∏«flı)8>2”„å,R%Ÿªõ¯fixs9ôM‚<YÅ`„Ô‰W,J¢‘íF3”@^2Z›<ädˇ:(ˇl>òüçuπ´Í¶ñ¶nõº.⁄⁄         
4>~˘œ?Ã_ÕøÕ”W_≠˘Ù’·fl◊OL.ò´øÂKI5ÖÀª∫*≥O_ÃÀk”‘aH|\1OØØù
±Ê˙'sqv0◊ˇ2oÆ√Vñ©˘÷Êmy2jæ»;P+Ú¢(*s˝ikó3>z¸ãõæ8;èè˙΄·ê—z~=|  
¯D˝rËî)WÈå<˝¡ÒˇnÆfl/3¿’UnõÆ4~∫Á;Ú”µ≠J˙4‰JWùîgz8€]êªA@g¸≠kRŸ¯‹÷ùàëeÁÔπUŸÓ÷Ü´≤Œ

我猜這與一些編碼功能有關——不是我的專業領域,所以任何幫助都將不勝感激!

參考TEXTUTIL(1) 手冊頁 ,似乎pdf不在此實用程序管理的格式之間: fmt is one of: txt, html, rtf, rtfd, doc, docx, wordml, odt, or webarchive

在 Linux/Unix 上,安裝像XPDF/pdftotext這樣的腳本產品 可能是一個有效的解決方案,就像已經建議的一些評論一樣。

對於那些在 OS X 上的人,可以通過本機 OS X automator 操作從 PDF 中提取文本(..see this answer or last 4’ of this tutorial)然後考慮可以通過CLI automator 命令“編寫”automator 的工作流程

引用自:https://unix.stackexchange.com/questions/193592