当前位置：theitroad>Hadoop中运行Pig脚本的本地和分布式模式

Hadoop中运行Pig脚本的本地和分布式模式

时间：2020-02-23 14:33:34 　来源:igfitidea点击:

在我们可以在Hadoop中运行第一首Pig脚本之前，我们需要掌握Pig程序如何使用PIG服务器打包。

Pig有两种运行脚本的模式：

本地模式：所有脚本都在单个计算机上运行，而无需Hadoop MapReduce和HDFS。这对开发和测试Pig逻辑有用。如果我们使用一小组数据到开发人员或者测试代码，则本地模式可能比通过MapReduce基础架构更快。本地模式不需要Hadoop。当我们在本地模式下运行时，PIG程序在本地Java虚拟机的上下文中运行，数据访问是通过单机的本地文件系统。本地模式实际上是Hadoop的LocalJobRunner类中的MapReduce的本地模拟。
MapReduce模式(也称为Hadoop模式)：在Hadoop集群上执行Pig。在这种情况下，PIG脚本将转换为一系列MapReduce作业，然后在Hadoop集群上运行。

如果我们希望执行操作的数据，并且我们想要交互式开发程序，我们可能很快就会发现事情很大，并且我们可能开始增加存储。
本地模式允许我们以更交换的方式使用数据的子集，以便我们可以弄清楚逻辑(并制定磁盘)的Pig计划。

在我们拥有根据需要的内容设置后，操作顺利运行后，我们可以使用MapReduce模式运行脚本。