采用Hadoop的10个理由-IGI

时间：2020-02-23 14:33:25 　来源:igfitidea点击:

Hadoop是一个强大而灵活的大型数据分析平台。
仅此声明是一个令人信服的理由，需要考虑使用Hadoop进行分析项目。
为了帮助进一步提示尺度，以下是将Hadoop作为大数据解决方案的一部分部署Hadoop的十大引人注目的原因。

Hadoop相对便宜

实现Hadoop集群的每raibyte的成本比设置磁带备份系统更便宜。
授予，Hadoop系统的成本更多，因为保持数据的磁盘驱动器都在线和供电，与磁带驱动器不同。
但这种有趣的指标仍然显示了Hadoop投资的巨大潜在价值。

Hadoop的主要原因是廉价的，它是对商品硬件的依赖。
企业数据管理中的传统解决方案取决于昂贵的资源，以确保高可用性和快速性能。

Hadoop有一个主动开源社区

每当组织投资软件包时，关键考虑因素是它购买的软件的长期相关性。
没有业务希望购买软件许可证，并在未来几个月和几年内构建围绕技术的特定技能，这些技能将是过时或者无关的。

在这方面，你不需要担心Hadoop。
Apache Hadoop项目是长期采用和相关的路径。
其主要项目有数十名提交人和数百名开发人员为贡献代码。
虽然这些人中的一些人是学者或者爱好者，但其中大多数是企业软件支付的，以帮助发展Hadoop平台。

Hadoop正在广泛采用各行业

与20世纪80年代和向内的关系数据库技术一样，Hadoop解决方案正在涌现在每个行业中。
大多数具有大规模信息管理挑战的业务严重探索Hadoop。
来自媒体故事和分析师报告的广泛共识现在表明，几乎所有财富500个都已开始拥有Hadoop项目。

Hadoop可以轻松扩展，因为数据增长

数据卷上升是组织所面临的广泛的大数据挑战。
在竞争激烈的环境中，分析越来越成为确定获奖者和输家的决定因素，能够分析那些增加的数据量正在成为高度优先级。

即使是现在，大多数传统的数据处理工具，如数据库和统计包，都需要更大的尺度硬件(更多内存，磁盘和CPU核心)来处理增加的数据卷。
考虑到需要昂贵的部件，这种扩大的方法是限制性和成本无效。

与扩展模型相比，在将更快且更高的容量硬件添加到单个服务器的情况下，Hadoop旨在通过添加数据节点轻松扩展。
这些数据节点，表示增加的群集存储容量和处理能力，可以轻松地将瞬间添加到活动群集。

传统工具正在与Hadoop集成

随着采用的增加，企业即将取决于Hadoop并使用它来存储和分析关键数据。
凭借此趋势，可以为人们习惯于为其传统数据源(如关系数据库)的相同类型的数据管理工具提供胃口。
以下是一些更重要的应用程序类别，我们可以看到与Hadoop集成：

业务分析工具
统计分析包装
数据集成工具

Hadoop可以以任何格式存储数据

Hadoop的一个函数反映了一个关键的NoSQL原理：首先存储数据，并在查询后应用任何模式。
根据本原则从行动中致力于accoop的一个主要福利是我们可以在Hadoop中存储任何类型的数据：完全非结构化，二进制格式，半系统的日志文件或者关系数据。

但随着这种灵活性来诅咒：存储数据后，我们最终想要分析 - 并分析杂乱数据可能是困难和耗时的。
这里的好消息是，越来越多的工具可以减轻大型杂乱数据集中常见的分析挑战。

Hadoop旨在运行复杂的分析

我们不仅可以存储在Hadoop中的任何内容，而且还可以对这种数据进行任何类型的算法运行。
Apache Mahout中包含的机器学习模型和库是素质示例，它们可用于各种复杂的问题，包括基于大量训练数据的分类元素。

Hadoop可以处理完整的数据集

对于欺诈分析类型的用例，来自多种来源的行业数据表明所有退货和索赔的3％均审计。
在许多情况下授予，例如选举投票，分析小型示例数据是有用的并且充分。

但是，当97％的回报和索赔未经审核时，即使具有良好的抽样规则，许多欺诈性仍然存在。
通过能够对整个数据语料进行欺诈分析，我们现在可以决定是否示例。

硬件正在为Hadoop进行优化

英特尔现在是Hadoop分销市场的一名球员。
这一举措由英特尔是一个精明的，因为它的分销工作表明了其开放源整合努力背后的严重性和承诺。

与Hadoop，英特尔看到了销售更多硬件的巨大机会。
毕竟，Hadoop集群可以具有数百个节点，所有要求处理器，主板，RAM和硬盘驱动器。
英特尔一直在重大投资Hadoop，以便它可以构建特定于特定的硬件优化，即其Hadoop贡献者可以集成到开源Hadoop项目中。

其他主要的硬件供应商(如IBM，DELL和HP)也积极将Hadoop友好的产品带到市场上。

Hadoop可以越来越多地处理灵活的工作负载

在为Hadoop 2释放的四年引入期间，有大量的关注旨在解决具有HDFS NameNode的单点故障(SPOF)的问题。
虽然这种特殊的成功毫无疑问是一个重要的改进，因为它对企业稳定做得很多，但纱线是一个更加重要的发展。

直到Hadoop 2，唯一可以在Hadoop集群上完成的处理限于MapReduce框架。
这对Hadoop最初建立的日志分析使用案例是可以接受的，但随着采用的增加来实现了增加的灵活性。

采用Hadoop的10个理由

Hadoop相对便宜

Hadoop有一个主动开源社区

Hadoop正在广泛采用各行业

Hadoop可以轻松扩展，因为数据增长

传统工具正在与Hadoop集成

Hadoop可以以任何格式存储数据

Hadoop旨在运行复杂的分析

Hadoop可以处理完整的数据集

硬件正在为Hadoop进行优化

Hadoop可以越来越多地处理灵活的工作负载

相关推荐

最近更新

标签

采用Hadoop的10个理由

Hadoop相对便宜

Hadoop有一个主动开源社区

Hadoop正在广泛采用各行业

Hadoop可以轻松扩展，因为数据增长

传统工具正在与Hadoop集成

Hadoop可以以任何格式存储数据

Hadoop旨在运行复杂的分析

Hadoop可以处理完整的数据集

硬件正在为Hadoop进行优化

Hadoop可以越来越多地处理灵活的工作负载

相关推荐

在Fedora 31/30安装Pantheon桌面环境

如何在Fedora上安装Polybar状态栏

如何在Fedora 33/32/31/30安装Slack

在Fedora 30/Fedora 29/28上安装Snapd和Snap应用程序

相关推荐

最近更新

标签