Hadoop中运行Pig脚本的本地和分布式模式

时间:2020-02-23 14:33:34  来源:igfitidea点击:

在我们可以在Hadoop中运行第一首Pig脚本之前,我们需要掌握Pig程序如何使用PIG服务器打包。

Pig有两种运行脚本的模式:

  • 本地模式:所有脚本都在单个计算机上运行,而无需Hadoop MapReduce和HDFS。这对开发和测试Pig逻辑有用。如果我们使用一小组数据到开发人员或者测试代码,则本地模式可能比通过MapReduce基础架构更快。本地模式不需要Hadoop。当我们在本地模式下运行时,PIG程序在本地Java虚拟机的上下文中运行,数据访问是通过单机的本地文件系统。本地模式实际上是Hadoop的LocalJobRunner类中的MapReduce的本地模拟。

  • MapReduce模式(也称为Hadoop模式):在Hadoop集群上执行Pig。在这种情况下,PIG脚本将转换为一系列MapReduce作业,然后在Hadoop集群上运行。

如果我们希望执行操作的数据,并且我们想要交互式开发程序,我们可能很快就会发现事情很大,并且我们可能开始增加存储。
本地模式允许我们以更交换的方式使用数据的子集,以便我们可以弄清楚逻辑(并制定磁盘)的Pig计划。

在我们拥有根据需要的内容设置后,操作顺利运行后,我们可以使用MapReduce模式运行脚本。