pdftotext:Linux/UNIX将PDF文件转换为文本格式

时间:2020-01-09 14:16:08  来源:igfitidea点击:

问题描述:我已经下载了PDF格式的配置文件。
我没有在远程Linux/UNIX服务器上安装GUI。
如何使用命令行将PDF(便携式文档格式)文件转换为文本格式,以便可以通过远程ssh会话查看文件?

解决方法:使用pdftotext实用程序将可移植文档格式(PDF)文件转换为纯文本。
它读取PDF文件,然后写入文本文件。
如果未指定文本文件,则pdftotext将file.pdf转换为file.txt。
如果text-file是-,则将文本发送到stdout。

在RedHat/RHEL/Fedora/CentOS Linux下安装pdftotext

pdftotext是使用poppler-utils软件包在各种Linux发行版中安装的:

# yum install poppler-utils

或在Debian/Ubuntu Linux下使用以下命令

$ sudo apt-get install poppler-utils

pdftotext语法

pdftotext {PDF-file} {text-file}

如何将pdf转换为文本?

将名为hp-manual.pdf的pdf文件转换为hp-manual.txt,输入:

$ pdftotext hp-manual.pdf hp-manual.txt

指定要转换的第一页第5页和最后一页第10页(选择5至10页),输入:

$ pdftotext -f 5 -l 10 hp-manual.pdf hp-manual.txt

转换受所有者密码保护和加密的pdf文件:

$ pdftotext -opw 'password' hp-manual.pdf hp-manual.txt

转换受用户密码保护和加密的pdf文件:

$ pdftotext -upw 'password' hp-manual.pdf hp-manual.txt

设置行尾约定以用于文本输出。
您可以将其设置为UNIX,DOS或Mac。
对于UNIX/Linux操作系统,输入:

$ pdftotext -eol unix hp-manual.pdf hp-manual.txt