pdfimages:从可移植文档格式(PDF)文件中提取和保存图像
时间:2020-01-09 10:38:14 来源:igfitidea点击:
问题描述:如何在Linux/UNIX Shell帐户下从PDF文件提取图像?
解决方法:pdfimages在Linux/UNIX操作系统下可用作可移植文档格式(PDF)图像提取器。
它将PDF文件中的图像另存为Portable Pixmap(PPM),Portable Bitmap(PBM)或JPEG文件。
Pdfimages读取PDF文件PDF文件,扫描一页或多页并为每个图像image-root-nnn.xxx写入一个PPM,PBM或JPEG文件,其中nnn是图像编号,xxx是图像类型( .ppm,.pbm,.jpg)。
pdfimages是使用poppler-utils软件包在各种Linux发行版中安装的:
# yum install poppler-utils
或者
# apt-get install poppler-utils
pdfimages语法
pdfimages /path/to/file.pdf/path/to/output/dir提取名为bar.pdf的PDF文件,并将每个图像另存为image-00 {1,2,3..N} .ppm,执行:
$ pdfimages bar.pdf /tmp/image $ ls /tmp/image*
通常,所有图像都被写入PBM(对于单色图像)或PPM(对于非单色图像)文件。
使用-j选项,DCT格式的图像将另存为JPEG文件。
所有非DCT图像都照常以PBM/PPM格式保存:
$ pdfimages -j bar.pdf /tmp/image
-f选项指定要扫描的第一页。
要扫描前5页,请执行:
$ pdfimages -j -f 5 bar.pdf /tmp/image
-l选项指定要扫描的最后一页。
要扫描最后5页,请执行:
$ pdfimages -j -l 5 bar.pdf /tmp/image