如何开始Apache Hive

时间:2020-02-23 14:33:31  来源:igfitidea点击:

没有更好的方法来看看什么是安装蜂巢软件的东西,并给它一个测试运行。
与Hadoop生态系统中的其他技术一样,它不需要长时间开始。

如果我们有时间和网络带宽,它总是最好用集成的所有技术下载整个Apache Hadoop发行版,并准备运行。

如果我们采取全展路线,则学习INS和OUTS的流行方法是在Linux虚拟机(VM)上的Hadoop分布在具有足够RAM的64位虚拟机(VM)上。
(如果Windows 7托管VM,则八千千兆字节或者更多RAM往往会很好地工作。
)

我们还需要Java 6或者更高版本 - 当然 - 支持的操作系统:Linux,Mac OS X或者CygWin,为Windows用户提供Linux shell。

设置步骤运行类似的内容:

  • 下载最新的Hive版本。
    我们还需要Hadoop和MapReduce子系统,因此请务必完成步骤2.

  • 下载Hadoop版本1.2.1.

  • 使用以下列表中的命令,将释放放在单独的目录中,然后解压缩和untar。
    (Untar是那些讨厌的UNIX术语中的一种,只意味着展开归档的软件包。)

$mkdir hadoop; cp hadoop-1.2.1.tar.gz hadoop; cd hadoop
$gunzip hadoop-1.2.1.tar.gz
$tar xvf *.tar
$mkdir hive; cp hive-0.11.0.tar.gz hive; cd hive
$gunzip hive-0.11.0.tar.gz
$tar xvf *.tar
  • 使用以下列表中的命令设置Apache Hive环境变量,包括Hadoop_home,Java_Home,Hive_home和Path,在shell配置文件脚本中。
export HADOOP_HOME=/home/user/Hive/hadoop/hadoop-1.2.1
export JAVA_HOME=/opt/jdk
export HIVE_HOME=/home/user/Hive/hive-0.11.0
export PATH=$HADOOP_HOME/bin:$HIVE_HOME/bin: $JAVA_HOME/bin:$PATH
  • 创建用于定义特定Hive配置设置的Hive配置文件。
    Apache HEVIVE分发包括模板配置文件,为Hive提供所有默认设置。要为环境进行自定义,我们需要做的就是将模板文件复制到名为hive-site.xml的文件并编辑它。
    使用我们喜欢的编辑器,修改Hive-site.xml文件,以便现在仅包含"hive.metaStore.ware.warehouse.dir"属性。完成后,它会看起来像下面的XML文件。请注意,删除了评论以缩短列表:
$cd $HIVE_HOME/conf
$cp hive-default.xml.template hive-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!-- Hive Execution Parameters →
<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>/home/biadmin/Hive/warehouse</value>
  <description>location of default database for the warehouse</description>
</property>
</configuration>

因为我们在虚拟机上以独立模式运行蜂巢,而不是在真实的Apache Hadoop集群中,配置系统以使用本地存储而不是HDFS:只需设置Hive.MetaStore.WareHouse.dir参数。当我们启动Hive客户端时,$Hive_Home环境变量会告诉客户端,它应该在Conf目录中查找配置文件(Hive-site.xml)。

Hadoop和Hive都支持本地模式配置。
如果我们已经配置了并运行了Hadoop群集,则需要将Hive.MetaStore.WareHouse.dir配置变量设置为打算存储Hive Warehouse的HDFS目录,设置Mapred.job.tracker配置变量指向Hadoop jobtracker,(最有可能)设置分布式转移。

这就是Apache Hive开始的所有你需要做的事情!