Apache Hadoop生态系统

时间:2020-02-23 14:33:38  来源:igfitidea点击:

Hadoop不仅仅是MapReduce和HDFS(Hadoop分布式文件系统):它也是分布式计算和大规模数据处理的相关项目(真正的生态系统)。
大多数(但不是全部)这些项目由Apache软件基础托管。
表列出了其中一些项目。

|项目名称|描述|
| --- - | --- |
| Ambari |为
安装,监视和维护Hadoop集群的一个集成的Hadoop管理工具集。另外搜索结果包括一些工具来添加或者删除从属节点。 |
| Avro |一种高效的数据序列化(一种搜索结果转化的)框架成一个紧凑的二进制格式|
| flume |大量日志移动的数据流服务
数据进入Hadoop |
| HBase |一个分布式柱状数据库,它使用HDFS为其底层存储。使用HBASE,我们可以在极其数据表中存储数据,以及具有可变列结构的大表。 |
| hcatalog |一种用于提供存储在搜索结果的Hadoop数据的关系图,其包括用于表格式数据的标准方法服务|
|Hive|用于存储在HDFS中的数据的分布式数据仓库;
还提供基于SQL的查询语言
(Hiveql)|
|色调|与方便的GUI工具,搜索结果的浏览文件,发行Hive和Pig查询和发展Oozie的Hadoop的管理界面,搜索结果的工作流程|
| mahout |在MapReduce中实现了一个机器学习统计算法库,并可以在Hadoop |本地运行|
| Oozie |一个工作流管理工具,可以处理调度和
在Hadoop应用程序中链接在一起|
|Pig|一种用于非常大的数据集的分析平台运行搜索结果上HDFS和用由一个编译器搜索结果,其产生的语言层,点击<BR MapReduce程序的序列和一个基础设施层>由名为Pig Latin的查询语言组成|
| Sqoop |一种有效的移动大量的搜索结果,关系数据库和HDFS之间的数据工具|
| zookeeper |一个简单的界面,通过搜索结果分布式应用程序使用的服务的搜索结果(如命名,配置和同步)的集中协调|

Hadoop生态系统及其商业分配继续发展,新的或者改进的技术和工具一直出现。