使用 pdfimages 提取圖像的問題

June 21, 2020

我想從以下pdf中提取圖像：
https://doku.pub/documents/benveniste-e-vocabulario-de-las-intituciones-as-3nl271x3v808
我跑pdfimages -j file.pdf image
但我得到了奇怪的數字，書頁空了（好像文字是在這個過程中失去的其他圖像）。這些圖像似乎是數字化這本書的人拍攝的原始照片的一部分。
pdfinfo file.pdf我得到
Creator:        Canon CLC5151  PDF
Producer:       ilovepdf.com
CreationDate:   Tue Sep  1 19:50:40 2009 CEST
ModDate:        Mon Sep 24 16:11:26 2018 CEST
Tagged:         no
UserProperties: no
Suspects:       no
Form:           AcroForm
JavaScript:     no
Pages:          233
Encrypted:      no
Page size:      690.764 x 1039.76 pts
Page rot:       90
File size:      101724898 bytes
Optimized:      yes
PDF version:    1.6

請注意，您的 PDF 包含每個頁面的圖像，並且每個圖像包含整個掃描器區域。PDF 可以通過轉換、縮放來顯示他們實際擁有的資訊的一部分……
獲取頁面的另一種方法是：
$ pdftoppm -cropbox -jpeg file.pdf prefix
這將獲取圖像並根據 pdf 文件中的“裁剪框”裁剪它們（請參閱下面的評論）。

引用自：https://unix.stackexchange.com/questions/594194

使用 pdfimages 提取圖像的問題

相關問答

將多個 PDF 文件合併為一個（按矩陣排列）

對pdfbeads中的輸入文件進行排序

無法使用 pdfimages 從 pdf 中提取圖像

Unix從PDF文件中提取矢量圖像及其圖形的方法？

將圖像打包成 PDF

將pdf圖片轉換為png文件會使圖片太小