采用Hadoop的10个理由
Hadoop是一个强大而灵活的大型数据分析平台。
仅此声明是一个令人信服的理由,需要考虑使用Hadoop进行分析项目。
为了帮助进一步提示尺度,以下是将Hadoop作为大数据解决方案的一部分部署Hadoop的十大引人注目的原因。
Hadoop相对便宜
实现Hadoop集群的每raibyte的成本比设置磁带备份系统更便宜。
授予,Hadoop系统的成本更多,因为保持数据的磁盘驱动器都在线和供电,与磁带驱动器不同。
但这种有趣的指标仍然显示了Hadoop投资的巨大潜在价值。
Hadoop的主要原因是廉价的,它是对商品硬件的依赖。
企业数据管理中的传统解决方案取决于昂贵的资源,以确保高可用性和快速性能。
Hadoop有一个主动开源社区
每当组织投资软件包时,关键考虑因素是它购买的软件的长期相关性。
没有业务希望购买软件许可证,并在未来几个月和几年内构建围绕技术的特定技能,这些技能将是过时或者无关的。
在这方面,你不需要担心Hadoop。
Apache Hadoop项目是长期采用和相关的路径。
其主要项目有数十名提交人和数百名开发人员为贡献代码。
虽然这些人中的一些人是学者或者爱好者,但其中大多数是企业软件支付的,以帮助发展Hadoop平台。
Hadoop正在广泛采用各行业
与20世纪80年代和向内的关系数据库技术一样,Hadoop解决方案正在涌现在每个行业中。
大多数具有大规模信息管理挑战的业务严重探索Hadoop。
来自媒体故事和分析师报告的广泛共识现在表明,几乎所有财富500个都已开始拥有Hadoop项目。
Hadoop可以轻松扩展,因为数据增长
数据卷上升是组织所面临的广泛的大数据挑战。
在竞争激烈的环境中,分析越来越成为确定获奖者和输家的决定因素,能够分析那些增加的数据量正在成为高度优先级。
即使是现在,大多数传统的数据处理工具,如数据库和统计包,都需要更大的尺度硬件(更多内存,磁盘和CPU核心)来处理增加的数据卷。
考虑到需要昂贵的部件,这种扩大的方法是限制性和成本无效。
与扩展模型相比,在将更快且更高的容量硬件添加到单个服务器的情况下,Hadoop旨在通过添加数据节点轻松扩展。
这些数据节点,表示增加的群集存储容量和处理能力,可以轻松地将瞬间添加到活动群集。
传统工具正在与Hadoop集成
随着采用的增加,企业即将取决于Hadoop并使用它来存储和分析关键数据。
凭借此趋势,可以为人们习惯于为其传统数据源(如关系数据库)的相同类型的数据管理工具提供胃口。
以下是一些更重要的应用程序类别,我们可以看到与Hadoop集成:
业务分析工具
统计分析包装
数据集成工具
Hadoop可以以任何格式存储数据
Hadoop的一个函数反映了一个关键的NoSQL原理:首先存储数据,并在查询后应用任何模式。
根据本原则从行动中致力于accoop的一个主要福利是我们可以在Hadoop中存储任何类型的数据:完全非结构化,二进制格式,半系统的日志文件或者关系数据。
但随着这种灵活性来诅咒:存储数据后,我们最终想要分析 - 并分析杂乱数据可能是困难和耗时的。
这里的好消息是,越来越多的工具可以减轻大型杂乱数据集中常见的分析挑战。
Hadoop旨在运行复杂的分析
我们不仅可以存储在Hadoop中的任何内容,而且还可以对这种数据进行任何类型的算法运行。
Apache Mahout中包含的机器学习模型和库是素质示例,它们可用于各种复杂的问题,包括基于大量训练数据的分类元素。
Hadoop可以处理完整的数据集
对于欺诈分析类型的用例,来自多种来源的行业数据表明所有退货和索赔的3%均审计。
在许多情况下授予,例如选举投票,分析小型示例数据是有用的并且充分。
但是,当97%的回报和索赔未经审核时,即使具有良好的抽样规则,许多欺诈性仍然存在。
通过能够对整个数据语料进行欺诈分析,我们现在可以决定是否示例。
硬件正在为Hadoop进行优化
英特尔现在是Hadoop分销市场的一名球员。
这一举措由英特尔是一个精明的,因为它的分销工作表明了其开放源整合努力背后的严重性和承诺。
与Hadoop,英特尔看到了销售更多硬件的巨大机会。
毕竟,Hadoop集群可以具有数百个节点,所有要求处理器,主板,RAM和硬盘驱动器。
英特尔一直在重大投资Hadoop,以便它可以构建特定于特定的硬件优化,即其Hadoop贡献者可以集成到开源Hadoop项目中。
其他主要的硬件供应商(如IBM,DELL和HP)也积极将Hadoop友好的产品带到市场上。
Hadoop可以越来越多地处理灵活的工作负载
在为Hadoop 2释放的四年引入期间,有大量的关注旨在解决具有HDFS NameNode的单点故障(SPOF)的问题。
虽然这种特殊的成功毫无疑问是一个重要的改进,因为它对企业稳定做得很多,但纱线是一个更加重要的发展。
直到Hadoop 2,唯一可以在Hadoop集群上完成的处理限于MapReduce框架。
这对Hadoop最初建立的日志分析使用案例是可以接受的,但随着采用的增加来实现了增加的灵活性。