pdfimages：从可移植文档格式(PDF)文件中提取和保存图像-IGI

时间：2020-01-09 10:38:14 　来源:igfitidea点击:

问题描述：如何在Linux/UNIX Shell帐户下从PDF文件提取图像？

解决方法：pdfimages在Linux/UNIX操作系统下可用作可移植文档格式(PDF)图像提取器。
它将PDF文件中的图像另存为Portable Pixmap(PPM)，Portable Bitmap(PBM)或JPEG文件。

Pdfimages读取PDF文件PDF文件，扫描一页或多页并为每个图像image-root-nnn.xxx写入一个PPM，PBM或JPEG文件，其中nnn是图像编号，xxx是图像类型( .ppm，.pbm，.jpg)。

pdfimages是使用poppler-utils软件包在各种Linux发行版中安装的：

# yum install poppler-utils

或者

# apt-get install poppler-utils

pdfimages语法

pdfimages /path/to/file.pdf/path/to/output/dir提取名为bar.pdf的PDF文件，并将每个图像另存为image-00 {1,2,3..N} .ppm，执行：

$ pdfimages bar.pdf /tmp/image
$ ls /tmp/image*

通常，所有图像都被写入PBM(对于单色图像)或PPM(对于非单色图像)文件。
使用-j选项，DCT格式的图像将另存为JPEG文件。
所有非DCT图像都照常以PBM/PPM格式保存：

$ pdfimages -j bar.pdf /tmp/image

-f选项指定要扫描的第一页。
要扫描前5页，请执行：

$ pdfimages -j -f 5 bar.pdf /tmp/image

-l选项指定要扫描的最后一页。
要扫描最后5页，请执行：

$ pdfimages -j -l 5 bar.pdf /tmp/image