在Linux上安装Apache Pig
Apache Pig是用于创建和执行与Hadoop一起使用的Map Reduce程序的工具/平台。
它是用于分析大量数据的工具/平台。
可以说,Apache Pig是MapReduce的抽象。
不太擅长Java的程序员过去常常在Hadoop上苦苦挣扎,主要是在编写MapReduce作业时。
因此,学习和掌握Big Data Hadoop Certification是一个重要的主题。
Apache Pig拥有自己的语言Pig Latin,这对贫穷的程序员来说是福音。
对Pig Latin的基本介绍将更好地理解:
Apache Pig平台中使用的高级过程语言称为Pig Latin。
Apache Pig具有" Pig Latin"功能,这是一种相对简单的语言,可以在Hadoop File System(HDFS)上的分布式数据集上运行。
在Apache Pig中,我们需要使用Pig拉丁语言编写Pig脚本,当我们运行Pig脚本时,该语言会转换为MapReduce作业。
Apache Pig具有各种运算符,可用于执行诸如读取,写入,处理数据之类的任务。
要了解Apache Pig运算符,请访问我们的教程 " Apache Pig中的运算符:第1部分关系运算符"。
现在我们已经对Apache Pig有了基本的了解,让我们开始在Linux上安装Apache Pig。
Linux上的Apache Pig安装:
以下是在Linux(使用Linux VM的ubuntu/centos/windows)上安装Apache Pig的步骤。
我在以下设置中使用Ubuntu 16.04.
步骤1:下载Pig tar文件。
命令:
wget http://www-us.apache.org/dist/pig/pig-0.16.0/pig-0.16.0.tar.gz
第2步:使用tar命令提取tar文件。
在以下tar命令中,x表示提取存档文件,z表示通过gzip过滤存档,f表示存档文件的文件名。
命令:
tar -xzf pig-0.16.0.tar.gz
步骤3:
编辑" .bashrc"文件以更新Apache Pig的环境变量。
我们对其进行设置,以便我们可以从任何目录访问Pig,而无需转到Pig目录来执行Pig命令。
另外,如果任何其他应用程序正在寻找Pig,它将从该文件中了解Apache Pig的路径。
`命令:
sudo gedit .bashrc
在文件末尾添加以下内容:
设置PIG_HOME
export PIG_HOME=/home/theitroad/pig-0.16.0 export PATH=$PATH:/home/theitroad/pig-0.16.0/bin export PIG_CLASSPATH=$HADOOP_CONF_DIR
另外,请确保也设置了hadoop路径。
运行以下命令以使更改在同一终端上得到更新。
命令:
source .bashrc
步骤4:检查Pig的版本。
这是为了测试Apache Pig是否已正确安装。
如果我们没有获得Apache Pig版本,则需要验证是否正确地遵循了上述步骤。
命令:
pig -version
第5步:检查Pig帮助以查看所有Pig命令选项。
命令:
pig -help
第6步:运行Pig来启动gruntshell。
Grunt shell用于运行Pig Latin脚本。
命令:
Pig
如果正确看一下上面的图片,Apache Pig有两种模式可以运行,默认情况下,它选择MapReduce模式。
我们可以运行Pig的另一种模式是本地模式。
让我告诉我们更多有关此的信息。
Apache Pig中的执行模式:
MapReduce模式这是默认模式,需要访问Hadoop群集和HDFS安装。由于这是默认模式,因此不必指定-x标志(可以执行pig或者pig -x mapreduce)。 HDFS上存在此模式下的输入和输出。
本地模式可以访问一台计算机,所有文件都使用本地主机和文件系统安装和运行。此处,本地模式是使用" -x标志"(pig -x local)指定的。此模式下的输入和输出位于本地文件系统上。
命令:
pig -x local