Apache Hadoop介绍

时间:2020-02-23 14:33:25  来源:igfitidea点击:

随着持续的业务增长和初创企业蓬勃发展,需要储存大量数据的需求也迅速增加。
这些开始寻找分析这一大数据的工具来揭示市场趋势,隐藏的模式,客户要求和其他有用的商业信息,以帮助他们提出有效的业务决策并获得利润。

为了满足不断增长的需求,Apache Software Foundation推出Hadoop,一个用于存储,分析和处理大数据的工具。
本文重点介绍Apache Hadoop是它的框架,它是如何工作的,以及其重要功能。

什么是hadoop?

Hadoop是一个基于开源的Java的大数据处理框架。
它是用于存储,分析和处理分布式环境中的大数据的工具。
Hadoop是Apache软件基金会的开源项目,最初由雅虎创建于2006年。
从那时起,这个开源项目在大数据分析中带来了革命,并占据了大数据市场。

简单来说,Apache Hadoop是用于处理大数据的工具。
它用于使用一些编程语言分布在许多计算机上的大集数据上。
Apache Hadoop很容易可扩展,我们可以通过单个服务器扩展多个计算机。

Apache框架由以下组件组成:

  • Hadoop常见:它是指支持Hadoop模块的常见Java实用程序和库。
  • Hadoop分布式文件系统:它是Hadoop应用程序使用的主要存储系统。它是一个分布式文件系统,使我们可以访问应用程序数据。
  • Hadoop mapReduce:Hadoop MapReduce是一种用于Big Data的并行处理的软件框架。
  • Hadoop YARN:Yarn是Hadoop使用的资源管理技术。它负责资源管理和作业调度

Hadoop如何工作?

Hadoop的工作是一个三阶段的程序。
让我们了解Hadoop的工作原理是多么:

第1阶段:作业已提交给Hadoop作业客户,以便以下详细信息 -

  • 分布式文件系统中的输入和输出文件位置
  • Java类具有Map和Dreame功能的实现
  • 使用不同参数集的作业配置

阶段2:Hadoop作业客户端将作业与作业配置转移到JobTracker。
然后,JobTracker负责执行配置分发到从站,任务调度和监视,将状态更新提交回作业客户端。

步骤3:在不同的节点处,任务触发器然后根据MapReduce实现执行任务。
减少函数生成的输出存储在输出文件中的分布式文件系统上。

Apache Hadoop的功能

企业因其令人惊讶的特征而采用Apache Hadoop。
让我们看看Apache Hadoop的重要功能。

  • 可伸缩性:Apache Hadoop使用本地数据的分布式处理,这允许以大规模存储,处理和分析数据。
  • 可靠性:在Apache Hadoop中,数据复制数据,因此可以在系统故障时生成冗余数据副本。因此,Apache Hadoop具有容错功能。
  • 灵活性:Apache Hadoop不遵循传统的关系数据库规则。它可以以任何格式存储信息和数据,如结构化,非结构化和半结构化。
  • 成本效益:Apache Hadoop是开源,无需成本。这使得它具有成本效益和可用的。
  • 兼容性:Apache Hadoop是基于Java的框架,与所有平台兼容。