如何开始Apache Hive
没有更好的方法来看看什么是安装蜂巢软件的东西,并给它一个测试运行。
与Hadoop生态系统中的其他技术一样,它不需要长时间开始。
如果我们有时间和网络带宽,它总是最好用集成的所有技术下载整个Apache Hadoop发行版,并准备运行。
如果我们采取全展路线,则学习INS和OUTS的流行方法是在Linux虚拟机(VM)上的Hadoop分布在具有足够RAM的64位虚拟机(VM)上。
(如果Windows 7托管VM,则八千千兆字节或者更多RAM往往会很好地工作。
)
我们还需要Java 6或者更高版本 - 当然 - 支持的操作系统:Linux,Mac OS X或者CygWin,为Windows用户提供Linux shell。
设置步骤运行类似的内容:
下载最新的Hive版本。
我们还需要Hadoop和MapReduce子系统,因此请务必完成步骤2.下载Hadoop版本1.2.1.
使用以下列表中的命令,将释放放在单独的目录中,然后解压缩和untar。
(Untar是那些讨厌的UNIX术语中的一种,只意味着展开归档的软件包。)
$mkdir hadoop; cp hadoop-1.2.1.tar.gz hadoop; cd hadoop $gunzip hadoop-1.2.1.tar.gz $tar xvf *.tar $mkdir hive; cp hive-0.11.0.tar.gz hive; cd hive $gunzip hive-0.11.0.tar.gz $tar xvf *.tar
- 使用以下列表中的命令设置Apache Hive环境变量,包括Hadoop_home,Java_Home,Hive_home和Path,在shell配置文件脚本中。
export HADOOP_HOME=/home/user/Hive/hadoop/hadoop-1.2.1 export JAVA_HOME=/opt/jdk export HIVE_HOME=/home/user/Hive/hive-0.11.0 export PATH=$HADOOP_HOME/bin:$HIVE_HOME/bin: $JAVA_HOME/bin:$PATH
- 创建用于定义特定Hive配置设置的Hive配置文件。
Apache HEVIVE分发包括模板配置文件,为Hive提供所有默认设置。要为环境进行自定义,我们需要做的就是将模板文件复制到名为hive-site.xml的文件并编辑它。
使用我们喜欢的编辑器,修改Hive-site.xml文件,以便现在仅包含"hive.metaStore.ware.warehouse.dir"属性。完成后,它会看起来像下面的XML文件。请注意,删除了评论以缩短列表:
$cd $HIVE_HOME/conf $cp hive-default.xml.template hive-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!-- Hive Execution Parameters → <property> <name>hive.metastore.warehouse.dir</name> <value>/home/biadmin/Hive/warehouse</value> <description>location of default database for the warehouse</description> </property> </configuration>
因为我们在虚拟机上以独立模式运行蜂巢,而不是在真实的Apache Hadoop集群中,配置系统以使用本地存储而不是HDFS:只需设置Hive.MetaStore.WareHouse.dir参数。当我们启动Hive客户端时,$Hive_Home环境变量会告诉客户端,它应该在Conf目录中查找配置文件(Hive-site.xml)。
Hadoop和Hive都支持本地模式配置。
如果我们已经配置了并运行了Hadoop群集,则需要将Hive.MetaStore.WareHouse.dir配置变量设置为打算存储Hive Warehouse的HDFS目录,设置Mapred.job.tracker配置变量指向Hadoop jobtracker,(最有可能)设置分布式转移。
这就是Apache Hive开始的所有你需要做的事情!