如何在Linux中从PDF文件提取和保存图像

时间:2020-01-09 10:44:58  来源:igfitidea点击:

我们可以使用pdftotext命令行工具在Linux中轻松将PDF文件转换为可编辑文本。但是,如果原始PDF文件中有任何图像,则不会提取它们。要从PDF文件提取图像,可以使用另一个名为pdfimages的命令行工具。

注意:当我们说要在本文中键入某些内容并且文本周围有引号时,请不要键入引号,除非我们另外指定。

pdfimages工具是poppler-utils软件包的一部分。我们可以检查其是否已安装在系统上,并根据需要使用本文中描述的步骤进行安装。

要使用pdfimages从PDF文件提取图像,请按Ctrl + Alt + T打开"终端"窗口。在提示符下键入以下命令。

pdfimages /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

注意:对于本文中显示的所有命令,请将命令中的第一个路径和PDF文件名替换为原始PDF文件的路径和文件名。第二个路径应该是要将提取的图像保存到的根文件夹的路径。第二个路径末尾的单词image表示我们想用文件名开头的任何内容。图像的文件名会自动编号(000、001、002、003等)。如果要将文本添加到每个图像的开头,请在第二个路径的末尾输入该文本。在我们的示例中,每个图像文件名都将以图像开头,例如image-001.ppm,image-002.ppm等。在我们指定的文本和数字之间添加一个短划线。

对于非单色图像,默认图像格式为PPM(便携式像素图),对于单色图像,默认图像格式为PBM(便携式位图)。这些格式旨在在平台之间轻松交换。

注意:PDF文件中的每个图像可能会得到两个图像文件。每个图像的第二个图像为空白,因此,我们可以通过文件管理器中文件上的缩略图来分辨出哪些图像包含文件中的图像。

要创建.jpg图像文件,请在命令中添加-j选项,如下所示。

pdfimages -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

注意:我们还可以使用-png选项将默认输出更改为PNG,或者使用-tiff选项将其更改为TIFF。

每个图像的主图像文件另存为.jpg文件。第二个空白图像仍然是.ppm或者.pbm文件。

如果只想在特定页面上和之后转换图像,请使用-f选项和一个数字来表示要转换的第一页,如下面的示例命令所示。

pdfimages -f 2 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

注意:我们将-j选项与-f选项结合使用,因此我们将获得.jpg图像,并使用下面提到的-l选项进行相同的操作。

要转换特定页面之前和页面上的所有图像,请使用-l(小写的L,而不是数字1)选项,并带有一个数字来指示要转换的最后一页,如下所示。

pdfimages -l 1 -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

注意:可以同时使用-f和-l选项来转换文档中间特定页面范围内的图像。

如果PDF文件上有所有者密码,请使用-opw选项和单引号中的密码,如下所示。如果PDF文件上的密码是用户密码,请使用-upw选项代替密码。

注意:确保命令中的密码周围有单引号。

pdfimages -opw ‘password’ -j /home/lori/Documents/SampleWithImages.pdf /home/lori/Documents/ExtractedImages/image

有关使用pdfimages命令的更多信息,请在"终端"窗口的提示符下键入pdfimages,然后按Enter。显示命令用法,并列出命令中可用的选项。