如何在Linux中使用命令行将PDF文件转换为可编辑文本
出于多种原因,我们可能希望将PDF文件转换为可编辑的文本。也许我们需要修订一个旧文档,而我们所拥有的只是它的PDF版本。在Windows中转换PDF文件很容易,但是如果我们使用Linux怎么办?
别担心。很好地向我们展示了如何使用名为pdftotext的命令行工具轻松将PDF文件转换为可编辑文本,该工具是poppler-utils软件包的一部分。该工具可能已经安装。要检查系统上是否安装了pdftotext,请按Ctrl + Alt + T打开终端窗口。在提示符下键入以下命令,然后按Enter。
dpkg –s poppler-utils
注意:当我们说要在本文中键入某些内容并且文本周围有引号时,请不要键入引号,除非我们另外指定。
如果未安装pdftotext,请在提示符下键入以下命令,然后按Enter。
sudo apt-get install poppler-utils
出现提示时输入密码,然后按Enter。
poppler-utils软件包中提供了几种工具,可用于将PDF转换为不同格式,处理PDF文件以及从文件中提取信息。
以下是将PDF文件转换为可编辑文本文件的基本命令。按Ctrl + Alt + T打开"终端"窗口,在提示符下键入命令,然后按Enter。
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
更改每个文件的路径,使其与原始PDF文件的位置和名称以及要保存结果文本文件的位置相对应。另外,更改文件名以对应于文件名。
该文本文件已创建并可以打开,就像在Linux中打开任何其他文本文件一样。
转换后的文本可能在我们不想要的地方有换行符。在PDF文件中的每一行文本之后都插入了换行符。
我们可以使用-layout标志从转换后的文本文件中的原始PDF文件中保留文档的布局(页眉,页脚,页面等)。
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
如果只想转换PDF文件中的页面范围,请使用-f和-l(小写的L)标志来指定要转换范围内的第一页和最后一页。
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
要转换使用所有者密码保护和加密的PDF文件,请使用-opw标志(标志中的第一个字符是小写字母O,而不是零)。
pdftotext -opw ‘password’ /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
将密码更改为用于保护原始PDF文件的密码。确保在密码周围使用单引号而不是双引号。
如果PDF文件受用户密码保护和加密,请使用-upw标志而不是-opw标志。其余命令相同。
我们还可以指定应用于转换后的文本的行尾字符的类型。如果打算在Windows或者Mac等其他操作系统上访问文件,则此功能特别有用。为此,请使用-eol标志(标志中的中间字符是小写字母O,而不是零),后跟空格和要使用的行尾字符类型(unix,dos或者苹果电脑)。
注意:如果我们没有为文本文件指定文件名,则pdftotext会自动使用PDF文件名的基础并添加.txt扩展名。例如,file.pdf将被转换为file.txt。如果文本文件指定为-,则转换后的文本将发送到stdout,这意味着该文本显示在"终端"窗口中,而不保存到文件中。
要关闭"终端"窗口,请单击左上角的X按钮。