pdfimages:从可移植文档格式(PDF)文件中提取和保存图像

时间:2020-01-09 10:38:14  来源:igfitidea点击:

问题描述:如何在Linux/UNIX Shell帐户下从PDF文件提取图像?

解决方法:pdfimages在Linux/UNIX操作系统下可用作可移植文档格式(PDF)图像提取器。
它将PDF文件中的图像另存为Portable Pixmap(PPM),Portable Bitmap(PBM)或JPEG文件。

Pdfimages读取PDF文件PDF文件,扫描一页或多页并为每个图像image-root-nnn.xxx写入一个PPM,PBM或JPEG文件,其中nnn是图像编号,xxx是图像类型( .ppm,.pbm,.jpg)。

pdfimages是使用poppler-utils软件包在各种Linux发行版中安装的:

# yum install poppler-utils

或者

# apt-get install poppler-utils

pdfimages语法

pdfimages /path/to/file.pdf/path/to/output/dir提取名为bar.pdf的PDF文件,并将每个图像另存为image-00 {1,2,3..N} .ppm,执行:

$ pdfimages bar.pdf /tmp/image
$ ls /tmp/image*

通常,所有图像都被写入PBM(对于单色图像)或PPM(对于非单色图像)文件。
使用-j选项,DCT格式的图像将另存为JPEG文件。
所有非DCT图像都照常以PBM/PPM格式保存:

$ pdfimages -j bar.pdf /tmp/image

-f选项指定要扫描的第一页。
要扫描前5页,请执行:

$ pdfimages -j -f 5 bar.pdf /tmp/image

-l选项指定要扫描的最后一页。
要扫描最后5页,请执行:

$ pdfimages -j -l 5 bar.pdf /tmp/image