Pdf
使用 pdfimages 提取圖像的問題
我想從以下pdf中提取圖像:
https://doku.pub/documents/benveniste-e-vocabulario-de-las-intituciones-as-3nl271x3v808
我跑
pdfimages -j file.pdf image
但我得到了奇怪的數字,書頁空了(好像文字是在這個過程中失去的其他圖像)。這些圖像似乎是數字化這本書的人拍攝的原始照片的一部分。
pdfinfo file.pdf
我得到Creator: Canon CLC5151 PDF Producer: ilovepdf.com CreationDate: Tue Sep 1 19:50:40 2009 CEST ModDate: Mon Sep 24 16:11:26 2018 CEST Tagged: no UserProperties: no Suspects: no Form: AcroForm JavaScript: no Pages: 233 Encrypted: no Page size: 690.764 x 1039.76 pts Page rot: 90 File size: 101724898 bytes Optimized: yes PDF version: 1.6
請注意,您的 PDF 包含每個頁面的圖像,並且每個圖像包含整個掃描器區域。PDF 可以通過轉換、縮放來顯示他們實際擁有的資訊的一部分……
獲取頁面的另一種方法是:
$ pdftoppm -cropbox -jpeg file.pdf prefix
這將獲取圖像並根據 pdf 文件中的“裁剪框”裁剪它們(請參閱下面的評論)。