在Linux/UNIX中,如何将PDF文件转换为文本格式
时间:2019-11-20 08:53:16 来源:igfitidea点击:
如何将pdf文件转换成txt文件。doc文件?如何提取pdf文件中的文字?
如果pdf文件内容是文本格式的,我们可以使用pdftotext进行转换。
如果pdf文件的页面是图片形式的,则无法提取。
在RedHat/RHEL/Fedora/CentOS Linux下安装pdftotext
pdftotext在poppler-utils软件包中:
# yum install poppler-utils
在Debian/Ubuntu Linux中安装:
$ sudo apt-get install poppler-utils
pdftotext语法
pdftotext {PDF-file} {text-file}
如果未指定文本文件 {text-file} ,则pdftotext将file.pdf转换为file.txt。如果text-file是-,则将文本发送到stdout。
如何将pdf转换为文本?
将test.pdf 转换成test.txt
$ pdftotext test.pdf test.txt
指定开始页数和结尾页数(3-20页)
$ pdftotext -f 3 -l 20 test.pdf test.txt
如果pdf文件文件有密码(文件所有者密码):
$ pdftotext -opw 'password' test.pdf test.txt
如果pdf文件文件有密码(用户密码):
$ pdftotext -upw 'password' test.pdf test.txt