使用Hadoop管理大数据:HDFS和MapReduce

时间:2020-02-23 14:33:35  来源:igfitidea点击:

Hadoop是一个开源软件框架,使用HDFS(Hadoop Distributed文件系统)和MapReduce分析商品硬件集群的大数据 - 即在分布式计算环境中。

开发了Hadoop分布式文件系统(HDFS),以允许以简单而务实的方式更轻松地管理大量数据。
Hadoop允许大问题分解成较小的元件,以便可以快速和成本进行分析。
HDFS是一个多函数,弹性,集群的方法,用于在大数据环境中管理文件。

HDFS不是文件的最终目标。
相反,它是一种数据"服务",它提供了数据卷和速度高时所需的独特函数。

MapReduce是一个软件框架,使开发人员能够编写程序,可以在分布式的处理器组中并行地处理大量非结构化数据。
MapReduce由Google设计为以批处理模式有效地对大量数据执行一组函数的一种方式。

"MAP"组件在大量系统中分发编程问题或者任务,并以平衡负载的方式处理任务的位置,并管理从故障恢复。
在分布式计算完成之后,另一个名为"减少"的函数将所有元素聚合在一起以提供结果。
MapReduce用法的示例是确定在50种不同语言中的每一个都写了多少页。