如何柵格化 PDF 中的所有文本？

February 12, 2021

你知道當你有一個 pdf，它是一個文件的掃描並且它是一個非常大的文件，因為它只儲存掃描文件的圖片？
還有 OCR 工具可以幫助您製作僅儲存文本的正確文件嗎？
好吧，我需要反過來！假設我有一個完美的 pdf 文件pdflatex，我需要把它變成這樣一個“巨大”的 pdf，列印在紙上時看起來完全一樣（具有一定的 dpi 值），但只是原始圖片。
我最初的想法是將 pdf 轉換為一系列 JPG，然後再轉換為 PDF，但也許有一些規範的方法？
如果您想知道我為什麼要做這樣的事情：我目前被網路列印機卡住了，它不是由我維護的，它會隨機丟棄列印文件中的字元！因此，在有人弄清楚那裡出了什麼問題之前，我希望將其作為解決方法。

您可以測試基於圖像的 PDF 是否也被污染。首先將 PDF 轉換為（多頁）TIFF，例如使用ghostscript：
gs -sDEVICE=tiffg4 -o sample.tif sample.pdf
然後將 TIFF 轉換為 PDF，例如：
tiff2pdf -z -f -F -pA4 -o sample-img.pdf sample.tif
這會產生一個 PDF 文件，其中頁面是圖像而不是文本。
或者，如果您的系統支持列印 TIFF 文件，請嘗試直接列印。
還可以選擇pdf2ps將 PDF 轉換為 PS，如果可行，可能會更可取。

引用自：https://unix.stackexchange.com/questions/198712

相關問答

使用命令行從模板創建 pdf 的最簡單方法（沒有 pdflatex）？

February 9, 2021

通過命令行在 PDF 中疊加文本

October 16, 2020

將書籤從一個 pdf 複製到另一個的腳本

April 18, 2022

向 PDF 文件添加和編輯書籤

February 22, 2022

如何對 PDF 文件進行 OCR 並獲取儲存在 PDF 中的文本？

January 20, 2022

在 UNIX/LINUX 終端中搜尋超過 100 頁的 PDF 文件並將它們移動到目錄中

January 16, 2022