如何安装hadoop?

时间:2020-02-23 14:33:33  来源:igfitidea点击:

Hadoop是一个基于开源的Java的框架。

它是基于Java编程语言和Linux操作系统的构建。
Hadoop是用于大数据处理的工具,许多都使用Hadoop维护大量数据。

Hadoop是Apache软件基金会的项目。
Hadoop自推出的那一天以来已经发生了许多变化。
在开始如何安装Hadoop之前,请告诉我们更多有关Apache Hadoop的信息。

什么是apache hadoop?

Apache Hadoop在Java上运行,并且是用于处理和存储大量群集中的大量数据的开源框架。
Hadoop框架由四个主要组件组成:

  • Hadoop常见
  • Hadoop分布式文件系统
  • Yarn
  • Mapreduce.

Hadoop集群模式

安装Hadoop不是一项简单的任务,因为Hadoop集群设置得非常复杂。
可以以三种模式安装和操作Hadoop软件:

  • 独立模式
  • 伪分布式模式
  • 完全分布式模式
  • 独立模式

它是下载后系统在系统上配置了Hadoop的默认模式。
在独立模式下,Hadoop在单个节点上运行作为单个Java进程。
在此模式下不使用HDFS;对于输入和输出,使用本地文件系统。
此模式对于调试目的很有用。

  • 伪分布式模式

伪分布式模式涉及在单个机器上的Hadoop分布式模拟。
在此模式下,在单个计算机上设置了许多多个DataNode和TaskTrackers。
和各种守护进程作为伪分布式集群中的单机上的单独Java进程运行。

  • 完全分布式模式

在完全分布式模式下,可以在实际Hadoop集群上运行代码。
此模式允许我们在数千台服务器上运行代码,而不是非常大的输入。
所有Hadoop守护进程都在主模式下运行。

安装Hadoop软件

现在,在理解Hadoop之后,是时候了解如何安装Apache Hadoop的时候了。
让我们考虑在单节点上安装Hadoop:在独立模式下。
这将使用MapReduce和HDF执行简单的操作。
以下是在Linux上安装Hadoop 2.4.1的步骤。

准备工作

  • 操作系统:Hadoop在2000个节点上使用GNU/Linux群集,因为Linux作为开发和生产平台支持。如果我们有任何其他操作系统,请安装VirtualBox软件并其中搭配Linux。
  • Java:正如Hadoop是一个基于Java的框架,Java是安装Hadoop的主要准备工作。为了在Linux上运行Hadoop,应该安装Java。 Hadoop Java版本提供了推荐的Hadoop版本的Java版本。
  • ssh:必须安装ssh才能使用start并停止hadoop脚本。 SSHD必须运行以便使用它们。必须安装PSHD以获得更好的SSHD资源管理。

下载Hadoop.

从Apache软件基础下载Hadoop最新稳定版本。
这是必需的,以便获得Hadoop分布。
使用以下命令下载并提取Apache Hadoop:

在独立模式下安装Hadoop

下载并提取了Hadoop软件后,准备好设置Hadoop集群。
我们可以在三种模式中的任何一种中开始使用它。
但默认情况下,Hadoop集群被配置为在非分布式模式下运行:独立模式。
它作为单个Java进程运行,这对于调试非常有用。

设置Hadoop.

  • 通过运行以下命令设置Hadoop环境变量到~/.bashrc文件 -
  • 现在,运行以下命令以确保Hadoop运行正常 -
  • 如果已成功设置Hadoop,我们将收到以下输出 -

现在,我们可以在一台机器上使用独立模式使用Hadoop。