使用Apache Bigtop设置Hadoop环境

时间:2020-02-23 14:33:37  来源:igfitidea点击:

如果我们易于使用VMS和Linux,请随时在不同的VM上安装BIGTOP而不是推荐的。
如果我们真的大胆并拥有硬件,请继续并尝试在完全分布式模式下在一组机器上安装BIGTOP!

第1步:下载VM

Hadoop在所有流行的Linux发行版上运行,因此我们需要一个Linux VM。
可免费提供(和合法!)CentOS 6图像可用。

笔记本电脑上需要一个64位操作系统以运行此VM。
Hadoop需要64位环境。

下载VM后,将其从下载的zip文件中提取到目标目录中。
确保我们拥有大约50GB的空间,因为Hadoop和示例数据需要它。

如果我们还没有VM播放器,我们可以免费下载一个。

在我们设置VM播放器后,打开播放器,转到文件→打开,然后转到提取Linux VM的目录。
寻找一个名为并选择它的文件。
我们将看到有关多少处理器的信息以及它将使用多少内存。
找出计算机的内存量,并为VM分配一半以用于使用。
Hadoop需要很多记忆。

准备就绪后,单击播放按钮,Linux实例将启动。
随着Linux正在引导,我们将看到许多消息飞行,我们将来到登录屏幕。
用户名已设置为"汤姆"。
将密码指定为"tomtom"并登录。

第2步:下载BIGTOP

从Linux VM中,右键单击屏幕,然后从出现的上下文菜单中选择终端中的"打开"。
这将打开一个Linux终端,我们可以其中运行命令。
单击终端内部,以便我们可以看到光标闪烁并输入以下命令:SU

我们将被要求输入密码,所以执行"TomTom",就像先前一样。
此命令将用户切换到root,这是Linux计算机的主帐户 - 我们需要这个才能安装Hadoop。

通过root访问权限(不要让电源到达头部),请运行以下命令:

wget -O /etc/yum.repos.d/bigtop.repo       
http://www.apache.org/dist/bigtop/bigtop
0.7.0/repos/centos6/bigtop.repo

该命令本质上是一个Web请求,它请求我们可以看到的URL中的特定文件,并将其写入特定路径 - 在这种情况下,就是/。

第3步:安装BIGTOP

Linux背后的天才使生活非常容易,因为需要安装像Hadoop这样的大软件包。
我们在最后一步中下载的内容不是整个BIGTOP包和所有依赖项。
它只是一个存储库文件(具有扩展名),它告诉了Bigtop安装所需的软件包的安装程序程序。

与任何大型软件产品一样,Hadoop都有很多准备工作,但你不需要担心。
精心设计的文件将指向任何依赖项,并且安装程序足够智能,以查看计算机上丢失,然后下载并安装它们。

我们使用的安装程序被称为yum,我们现在可以在操作中查看:

yum install hadoop* mahout* oozie* hbase* hive* hue* pig* zookeeper*

请注意,我们正在挑选和选择要安装的Hadoop组件。
BIGTOP有许多其他组件可用,但这些是我们在此处使用的唯一一个。
由于VM是一个新鲜的Linux安装,因此我们需要许多依赖项,因此我们需要等待一点。

yum安装程序非常详细,因此我们可以完全观看正在下载并安装的内容来传递时间。
完成安装过程后,我们应该看到一条消息"完成!"。

第4步:开始Hadoop

在我们开始在Hadoop上运行应用程序之前,我们需要执行一些基本配置和设置。
其中他们有序:

  • 下载并安装Java:
yum install java-1.7.0-openjdk-devel.x86_64
  • 格式化NameNode:
sudo /etc/init.d/hadoop-hdfs-namenode init
  • 启动PseudodistRibuted集群的Hadoop服务:
for i in hadoop-hdfs-namenode hadoop-hdfs-datanode ;     do sudo service $i start ; done
  • 在HDFS中创建子目录结构:
sudo /usr/lib/hadoop/libexec/init-hdfs.sh
  • 开始纱线守护进程:
sudo service hadoop-yarn-resourcemanager startsudo service hadoop-yarn-nodemanager start

而且,你已经完成了。
恭喜!我们已安装Hadoop部署的工作!

步骤5:下载示例数据集

要下载示例数据集,请从VM中打开Firefox浏览器,然后转到DataExpo页面。

我们不需要整个数据集,因此从1987年开始,开始单一年。
当我们要下载时,请使用归档管理器选项选择"打开"。

下载文件后,将文件解压缩到主目录中,在那里我们可以轻松找到它。
单击"提取"按钮,然后选择桌面目录。

步骤6:将示例数据集复制到HDFS中

请记住,Hadoop程序只能在存储在HDFS中后使用数据。
所以你现在要做的是将航班数据文件复制到1987年进入HDFS。
输入以下命令:

hdfs dfs -copyFromLocal 1987.csv /user/root