Linux

如何柵格化 PDF 中的所有文本?

  • February 12, 2021

你知道當你有一個 pdf,它是一個文件的掃描並且它是一個非常大的文件,因為它只儲存掃描文件的圖片?

還有 OCR 工具可以幫助您製作僅儲存文本的正確文件嗎?

好吧,我需要反過來!假設我有一個完美的 pdf 文件pdflatex,我需要把它變成這樣一個“巨大”的 pdf,列印在紙上時看起來完全一樣(具有一定的 dpi 值),但只是原始圖片。

我最初的想法是將 pdf 轉換為一系列 JPG,然後再轉換為 PDF,但也許有一些規範的方法?


如果您想知道我為什麼要做這樣的事情:我目前被網路列印機卡住了,它不是由我維護的,它會隨機丟棄列印文件中的字元!因此,在有人弄清楚那裡出了什麼問題之前,我希望將其作為解決方法。

您可以測試基於圖像的 PDF 是否也被污染。首先將 PDF 轉換為(多頁)TIFF,例如使用ghostscript

gs -sDEVICE=tiffg4 -o sample.tif sample.pdf

然後將 TIFF 轉換為 PDF,例如:

tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif

這會產生一個 PDF 文件,其中頁面是圖像而不是文本。

或者,如果您的系統支持列印 TIFF 文件,請嘗試直接列印。

還可以選擇pdf2ps將 PDF 轉換為 PS,如果可行,可能會更可取。

引用自:https://unix.stackexchange.com/questions/198712