在Linux上安装Apache Pig

时间:2020-02-23 14:37:38  来源:igfitidea点击:

Apache Pig是用于创建和执行与Hadoop一起使用的Map Reduce程序的工具/平台。
它是用于分析大量数据的工具/平台。
可以说,Apache Pig是MapReduce的抽象。
不太擅长Java的程序员过去常常在Hadoop上苦苦挣扎,主要是在编写MapReduce作业时。
因此,学习和掌握Big Data Hadoop Certification是一个重要的主题。
Apache Pig拥有自己的语言Pig Latin,这对贫穷的程序员来说是福音。

对Pig Latin的基本介绍将更好地理解:

Apache Pig平台中使用的高级过程语言称为Pig Latin。
Apache Pig具有" Pig Latin"功能,这是一种相对简单的语言,可以在Hadoop File System(HDFS)上的分布式数据集上运行。
在Apache Pig中,我们需要使用Pig拉丁语言编写Pig脚本,当我们运行Pig脚本时,该语言会转换为MapReduce作业。
Apache Pig具有各种运算符,可用于执行诸如读取,写入,处理数据之类的任务。
要了解Apache Pig运算符,请访问我们的教程 " Apache Pig中的运算符:第1部分关系运算符"。

现在我们已经对Apache Pig有了基本的了解,让我们开始在Linux上安装Apache Pig。

Linux上的Apache Pig安装:

以下是在Linux(使用Linux VM的ubuntu/centos/windows)上安装Apache Pig的步骤。
我在以下设置中使用Ubuntu 16.04.

步骤1:下载Pig tar文件。

命令:

wget http://www-us.apache.org/dist/pig/pig-0.16.0/pig-0.16.0.tar.gz

第2步:使用tar命令提取tar文件。
在以下tar命令中,x表示提取存档文件,z表示通过gzip过滤存档,f表示存档文件的文件名。

命令:

tar -xzf pig-0.16.0.tar.gz

步骤3:编辑" .bashrc"文件以更新Apache Pig的环境变量。
我们对其进行设置,以便我们可以从任何目录访问Pig,而无需转到Pig目录来执行Pig命令。
另外,如果任何其他应用程序正在寻找Pig,它将从该文件中了解Apache Pig的路径。

`命令:

sudo gedit .bashrc

在文件末尾添加以下内容:

设置PIG_HOME

export PIG_HOME=/home/theitroad/pig-0.16.0   
export PATH=$PATH:/home/theitroad/pig-0.16.0/bin   export PIG_CLASSPATH=$HADOOP_CONF_DIR

另外,请确保也设置了hadoop路径。

运行以下命令以使更改在同一终端上得到更新。

命令:

source .bashrc

步骤4:检查Pig的版本。
这是为了测试Apache Pig是否已正确安装。
如果我们没有获得Apache Pig版本,则需要验证是否正确地遵循了上述步骤。

命令:

pig -version

第5步:检查Pig帮助以查看所有Pig命令选项。

命令:

pig -help

第6步:运行Pig来启动gruntshell。
Grunt shell用于运行Pig Latin脚本。

命令:

Pig

如果正确看一下上面的图片,Apache Pig有两种模式可以运行,默认情况下,它选择MapReduce模式。
我们可以运行Pig的另一种模式是本地模式。
让我告诉我们更多有关此的信息。

Apache Pig中的执行模式:

  • MapReduce模式这是默认模式,需要访问Hadoop群集和HDFS安装。由于这是默认模式,因此不必指定-x标志(可以执行pig或者pig -x mapreduce)。 HDFS上存在此模式下的输入和输出。

  • 本地模式可以访问一台计算机,所有文件都使用本地主机和文件系统安装和运行。此处,本地模式是使用" -x标志"(pig -x local)指定的。此模式下的输入和输出位于本地文件系统上。

命令:

pig -x local