Pdf

使用 pdfimages 提取圖像的問題

  • June 21, 2020

我想從以下pdf中提取圖像:

https://doku.pub/documents/benveniste-e-vocabulario-de-las-intituciones-as-3nl271x3v808

我跑pdfimages -j file.pdf image

但我得到了奇怪的數字,書頁空了(好像文字是在這個過程中失去的其他圖像)。這些圖像似乎是數字化這本書的人拍攝的原始照片的一部分。

pdfinfo file.pdf我得到

Creator:        Canon CLC5151  PDF
Producer:       ilovepdf.com
CreationDate:   Tue Sep  1 19:50:40 2009 CEST
ModDate:        Mon Sep 24 16:11:26 2018 CEST
Tagged:         no
UserProperties: no
Suspects:       no
Form:           AcroForm
JavaScript:     no
Pages:          233
Encrypted:      no
Page size:      690.764 x 1039.76 pts
Page rot:       90
File size:      101724898 bytes
Optimized:      yes
PDF version:    1.6

請注意,您的 PDF 包含每個頁面的圖像,並且每個圖像包含整個掃描器區域。PDF 可以通過轉換、縮放來顯示他們實際擁有的資訊的一部分……

在此處輸入圖像描述

獲取頁面的另一種方法是:

$ pdftoppm -cropbox -jpeg file.pdf prefix

這將獲取圖像並根據 pdf 文件中的“裁剪框”裁剪它們(請參閱下面的評論)。

引用自:https://unix.stackexchange.com/questions/594194