Hadoop中的Pig脚本接口

时间:2020-02-23 14:33:36  来源:igfitidea点击:

Pig编程语言旨在处理任何类型的数据折叠其方式 - 结构化,半结构化,非结构化数据,我们将其命名为。
Pig计划可以用三种不同的方式包装:

  • 脚本:此方法只不过是包含Pig拉丁命令的文件,由.pig后缀(例如flightdata.pig)标识。使用.pig延期结束Pig计划是一个公约,但不需要。该命令由PIG LATIN编译器解释,并按Pig优化器确定的顺序执行。

  • Grunt:Grunt作为命令解释器,在那里,我们可以在Grunt指令行交互地进入Pig拉丁语,并立即看到响应。此方法有助于在初始开发期间的原型设计,并且具有以下方式。

  • 嵌入式:Pig拉丁文语句可以在Java,Python或者JavaScript程序中执行。

Pig脚本,Grunt壳Pig命令和嵌入式Pig程序可以在本地模式或者MapReduce模式下运行。

Grunt Shell提供交互式shell以提交Pig命令或者运行Pig脚本。
要以交互模式启动Grunt Shell,只需在shell提交命令Pig。

要指定是否在本地执行脚本或者GRURT SHIT,也可以在HADOOP模式下在X标志中指定为PIG命令。
以下是我们如何在本地模式下指定运行PIG脚本的示例

pig x local milesPerCarrier.pig

以下是我们如何在Hadoop模式下运行PIG脚本,这是默认情况下,如果我们未指定标志:

pig x mapreduce milesPerCarrier.pig

默认情况下,当我们在没有任何参数的情况下指定PIG命令时,它将在HADOOP模式下启动GRURT SHILL。
如果要在本地模式下启动Grunt Shell,只需将x本地标志添加到命令。
这是一个例子

pig -x local