如何在Ubuntu 18.04/Ubuntu 16.04 LT上安装Apache Tika

时间:2020-02-23 14:32:43  来源:igfitidea点击:

如何在Ubuntu 18.04/Ubuntu 16.04上安装Apache Tika 1.20?
Apache Tika是一个开源工具包,可检测和提取来自千种不同文件类型(例如PPT,XL和PDF)的元数据和文本。
TIKA对于搜索引擎索引,内容分析,翻译非常有用。

什么是Apache Tika 1.20

升级到POI 4.0.1upgrade to pdfbox 2.0.13Integrate/parameterize在<style>和<script 元素中处理的新角度,以便在TotextContentHandleswitch子项中写入TIKA-Server中的共享内存映射文件的父通信 - SpawnChild Modebulk升级indedionesupgrade jaxb-runtime和javax.activationImprove语言ID效率在Tika-equive在PPT幻灯片中的Notes重复的重复,SQLite"提供"依赖于3.25.2

Apache Tika依赖关系

我们需要在Ubuntu 18.04/Ubuntu 16.04 LTS上构建和安装Apache Tika是:

Java运行时环境(JRE)Apache Maven

在我们可以在Ubuntu 18.04/Ubuntu 16.04上下载并安装TIKA之前,我们将安装这些依赖项。

第1步:更新Ubuntu系统

首先,通过确保我们运行更新的Ubuntu桌面/服务器。

sudo apt update
sudo apt -y upgrade
sudo apt -y intall wget curl vim

第2步:在Ubuntu 18.04/Ubuntu 16.04上安装Java

从TIKA 1.19中,支持Java 11的构建。
我们可以使用下面的前教程在Ubuntu 18.04/Ubuntu 16.04 LT上安装Java 11.

如何在Ubuntu 18.04 /16.04/debian 9上安装Java 11

对于Java 8,请使用下面的命令安装它

sudo add-apt-repository ppa:webupd8team/java
sudo apt update 
sudo apt install oracle-java8-set-default

确认已安装的Java版本:

$java --version
 java 11.0.1 2016-10-16 LTS
 Java(TM) SE Runtime Environment 18.9 (build 11.0.1+13-LTS)
 Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.1+13-LTS, mixed mode)

第3步:安装apache maven

按照我们的教程安装Apache Maven:

在Ubuntu 18.04 /16.04/debian 9上安装最新的apache maven

第4步:下载并安装Apache Tika

从下载页面下载最新的Apache Tika。

export VER="1.20"
wget https://archive.apache.org/dist/tika/tika-${VER}-src.zip

解压缩下载的文件。

unzip tika-${VER}-src.zip

更改为新文件夹并运行 mvn install

cd tika-${VER}
mvn install

等待安装完成,然后在其基本目录中测试TIKA。