Linux
如何柵格化 PDF 中的所有文本?
你知道當你有一個 pdf,它是一個文件的掃描並且它是一個非常大的文件,因為它只儲存掃描文件的圖片?
還有 OCR 工具可以幫助您製作僅儲存文本的正確文件嗎?
好吧,我需要反過來!假設我有一個完美的 pdf 文件
pdflatex
,我需要把它變成這樣一個“巨大”的 pdf,列印在紙上時看起來完全一樣(具有一定的 dpi 值),但只是原始圖片。我最初的想法是將 pdf 轉換為一系列 JPG,然後再轉換為 PDF,但也許有一些規範的方法?
如果您想知道我為什麼要做這樣的事情:我目前被網路列印機卡住了,它不是由我維護的,它會隨機丟棄列印文件中的字元!因此,在有人弄清楚那裡出了什麼問題之前,我希望將其作為解決方法。
您可以測試基於圖像的 PDF 是否也被污染。首先將 PDF 轉換為(多頁)TIFF,例如使用ghostscript:
gs -sDEVICE=tiffg4 -o sample.tif sample.pdf
然後將 TIFF 轉換為 PDF,例如:
tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif
這會產生一個 PDF 文件,其中頁面是圖像而不是文本。
或者,如果您的系統支持列印 TIFF 文件,請嘗試直接列印。
還可以選擇
pdf2ps
將 PDF 轉換為 PS,如果可行,可能會更可取。