Image-Manipulation
從 PDF 中提取圖形
我有一種情況,我需要從大量 PDF 文件中提取圖像並將它們顯示在網站上。我的 PDF 有“正常”圖像以及大量圖表。
我使用了 pdf2xml,它以 jpeg、ppm、pbm 和 vec 格式提取圖像。我看到“正常”圖像(大部分)被提取為 jpeg/ppm/pbm,但我沒有看到圖形存在 - 所以我猜測 pdf2xml 將它們儲存為 .vec 文件。
所以問題是如何獲得我的圖表?我使用
convert
imagemagick 附帶的將 .vec 轉換為 jpeg/png 等,但無濟於事。
我從未嘗試過 pdf2xml,但在 SourceForge 上瀏覽它的文件時,我發現了 vec2svg-2.py,它似乎是一個將 .vec 文件轉換為 .svg 的 Python 腳本。您應該可以輕鬆地將SVG轉換為您需要的任何格式。
python vec2svg-2.py -i file.vec -o file.svg