如何在Ubuntu 18.04/Ubuntu 16.04 LT上安装Apache Tika
如何在Ubuntu 18.04/Ubuntu 16.04上安装Apache Tika 1.20?
Apache Tika是一个开源工具包,可检测和提取来自千种不同文件类型(例如PPT,XL和PDF)的元数据和文本。
TIKA对于搜索引擎索引,内容分析,翻译非常有用。
什么是Apache Tika 1.20
升级到POI 4.0.1upgrade to pdfbox 2.0.13Integrate/parameterize在<style>和<script 元素中处理的新角度,以便在TotextContentHandleswitch子项中写入TIKA-Server中的共享内存映射文件的父通信 - SpawnChild Modebulk升级indedionesupgrade jaxb-runtime和javax.activationImprove语言ID效率在Tika-equive在PPT幻灯片中的Notes重复的重复,SQLite"提供"依赖于3.25.2
Apache Tika依赖关系
我们需要在Ubuntu 18.04/Ubuntu 16.04 LTS上构建和安装Apache Tika是:
Java运行时环境(JRE)Apache Maven
在我们可以在Ubuntu 18.04/Ubuntu 16.04上下载并安装TIKA之前,我们将安装这些依赖项。
第1步:更新Ubuntu系统
首先,通过确保我们运行更新的Ubuntu桌面/服务器。
sudo apt update sudo apt -y upgrade sudo apt -y intall wget curl vim
第2步:在Ubuntu 18.04/Ubuntu 16.04上安装Java
从TIKA 1.19中,支持Java 11的构建。
我们可以使用下面的前教程在Ubuntu 18.04/Ubuntu 16.04 LT上安装Java 11.
如何在Ubuntu 18.04 /16.04/debian 9上安装Java 11
对于Java 8,请使用下面的命令安装它
sudo add-apt-repository ppa:webupd8team/java sudo apt update sudo apt install oracle-java8-set-default
确认已安装的Java版本:
$java --version java 11.0.1 2016-10-16 LTS Java(TM) SE Runtime Environment 18.9 (build 11.0.1+13-LTS) Java HotSpot(TM) 64-Bit Server VM 18.9 (build 11.0.1+13-LTS, mixed mode)
第3步:安装apache maven
按照我们的教程安装Apache Maven:
在Ubuntu 18.04 /16.04/debian 9上安装最新的apache maven
第4步:下载并安装Apache Tika
从下载页面下载最新的Apache Tika。
export VER="1.20" wget https://archive.apache.org/dist/tika/tika-${VER}-src.zip
解压缩下载的文件。
unzip tika-${VER}-src.zip
更改为新文件夹并运行 mvn install
cd tika-${VER} mvn install
等待安装完成,然后在其基本目录中测试TIKA。