如何在Linux中使用命令行将PDF文件转换为可编辑文本

时间:2020-01-09 10:44:55  来源:igfitidea点击:

出于多种原因,我们可能希望将PDF文件转换为可编辑的文本。也许我们需要修订一个旧文档,而我们所拥有的只是它的PDF版本。在Windows中转换PDF文件很容易,但是如果我们使用Linux怎么办?

别担心。很好地向我们展示了如何使用名为pdftotext的命令行工具轻松将PDF文件转换为可编辑文本,该工具是poppler-utils软件包的一部分。该工具可能已经安装。要检查系统上是否安装了pdftotext,请按Ctrl + Alt + T打开终端窗口。在提示符下键入以下命令,然后按Enter。

dpkg –s poppler-utils

注意:当我们说要在本文中键入某些内容并且文本周围有引号时,请不要键入引号,除非我们另外指定。

如果未安装pdftotext,请在提示符下键入以下命令,然后按Enter。

sudo apt-get install poppler-utils

出现提示时输入密码,然后按Enter。

poppler-utils软件包中提供了几种工具,可用于将PDF转换为不同格式,处理PDF文件以及从文件中提取信息。

以下是将PDF文件转换为可编辑文本文件的基本命令。按Ctrl + Alt + T打开"终端"窗口,在提示符下键入命令,然后按Enter。

pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

更改每个文件的路径,使其与原始PDF文件的位置和名称以及要保存结果文本文件的位置相对应。另外,更改文件名以对应于文件名。

该文本文件已创建并可以打开,就像在Linux中打开任何其他文本文件一样。

转换后的文本可能在我们不想要的地方有换行符。在PDF文件中的每一行文本之后都插入了换行符。

我们可以使用-layout标志从转换后的文本文件中的原始PDF文件中保留文档的布局(页眉,页脚,页面等)。

pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

如果只想转换PDF文件中的页面范围,请使用-f和-l(小写的L)标志来指定要转换范围内的第一页和最后一页。

pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

要转换使用所有者密码保护和加密的PDF文件,请使用-opw标志(标志中的第一个字符是小写字母O,而不是零)。

pdftotext -opw ‘password’ /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

将密码更改为用于保护原始PDF文件的密码。确保在密码周围使用单引号而不是双引号。

如果PDF文件受用户密码保护和加密,请使用-upw标志而不是-opw标志。其余命令相同。

我们还可以指定应用于转换后的文本的行尾字符的类型。如果打算在Windows或者Mac等其他操作系统上访问文件,则此功能特别有用。为此,请使用-eol标志(标志中的中间字符是小写字母O,而不是零),后跟空格和要使用的行尾字符类型(unix,dos或者苹果电脑)。

注意:如果我们没有为文本文件指定文件名,则pdftotext会自动使用PDF文件名的基础并添加.txt扩展名。例如,file.pdf将被转换为file.txt。如果文本文件指定为-,则转换后的文本将发送到stdout,这意味着该文本显示在"终端"窗口中,而不保存到文件中。

要关闭"终端"窗口,请单击左上角的X按钮。