如何在Hadoop中设置Apache Oozie

时间:2020-02-23 14:33:31  来源:igfitidea点击:

Apache Oozie包含在每个主要的Hadoop发行版中,包括Apache Bigtop。
在Hadoop集群中,在边缘节点上安装Oozie Server,其中还可以根据所示运行其他客户端应用程序,如图所示。

边缘节点被设计为对外网络的网关到Hadoop集群。
这使它们成为数据传输技术的理想选择(例如,Flume),而且是客户端应用程序和其他应用程序基础架构,如Oozie。
Oozie不需要专用服务器,并且可以轻松地与理想地适用于边缘节点的其他服务,如Pig和蜂巢。

部署Oozie后,我们已准备好启动Oozie服务器。
Oozie的基础架构安装在$oozie_home目录中。
从那里,运行oozie-start.sh命令以启动服务器。
(正如我们可能期望的那样,停止服务器涉及执行Oozie-stop.sh。
)我们可以通过运行命令来测试Oozie实例的状态

oozie admin -status

我们已将Oozie服务器部署并启动后,我们可以编目并运行各种工作流,协调器或者捆绑作业。
使用作业时,Oozie存储目录定义 - 描述所有Oozie对象(工作流,协调器和捆绑作业)的数据 - 以及他们在专用数据库中的状态。

默认情况下,Oozie配置为使用嵌入式德比数据库,但如果需要,可以使用MySQL,Oracle或者PostgreSQL。

我们有四种与Oozie Server交互的选项:

  • Java API:此选项在我们在Java应用程序中拥有自己的计划代码的情况下很有用,并且我们需要从应用程序中控制Oozie工作流,协调器或者捆绑包的执行。

  • 其余的API:再次,此选项在我们希望使用自己的调度代码作为Oozie工作流,协调器或者捆绑的基础的情况下,或者我们想要构建自己的界面或者扩展现有界面管理Oozie Server。

  • 命令行界面(CLI):它是Oozie的传统Linux命令行界面。

  • Oozie Web控制台:好的,也许我们在此处无法做得多,但Oozie Web控制台为我们提供了Oozie服务器状态的(只读)视图,这对于监视Oozie作业非常有用。

Hue,Hadoop管理界面,提供了另一种与Oozie一起使用的工具。
Oozie工作流,协调员和捆绑包都是使用XML定义的,这可以乏味编辑,特别是对于复杂的情况。
Hue为GUI设计器工具提供了以图形地构建工作流程和其他Oozie对象。

在封面下方,Oozie包括嵌入式Tomcat Web服务器,它处理其输入和输出。