基于Hadoop的着陆区

时间:2020-02-23 14:33:38  来源:igfitidea点击:

当我们将来尝试拼图拼图,在将来可能看起来像什么样的内容时,我们将突破基于Hadoop的着陆区的模式和时间。
事实上,它甚至不再是期货为导向的讨论,因为着陆区已成为前瞻性现在尝试节省其成本的方式,并为创新数据分析提供平台。

那么着陆区究竟是什么?
在最基本的层面,着陆区仅仅是数据将在企业中降落的中央地 - 每周提取来自操作数据库的数据,例如,生成日志文件的系统。
Hadoop是一个有用的存储库,用于降落数据,出于这些原因:

  • 它可以处理各种数据。

  • 它很容易可扩展。

  • 它廉价。

  • 一旦我们在Hadoop中的数据中,我们可以灵活地查询,分析或者以各种方式进行数据。

此图仅显示故事的一部分,绝不完整。
毕竟,我们需要知道数据如何从登陆区移动到数据仓库等。

关于现代化数据仓库的讨论的起点必须是组织如何使用数据仓库以及IT部门与他们面临的挑战。

在20世纪80年代,一旦组织擅长在关系数据库中存储他们的操作信息(例如,销售交易或者供应链状态),业务领导者开始想要从此关系数据生成的报告。
最早的关系商店是运营数据库,并设计用于在线事务处理(OLTP),因此可以尽快插入,更新或者删除记录。

这是大规模报告和分析的不切实际的架构,因此开发了关系在线分析处理(ROLAP)数据库以满足这种需求。
这导致了全新的RDBMS的演变:数据仓库,它是一个单独的实体和生活在组织的运营数据存储。

这会使用目的地构建的工具来提高效率:我们具有操作数据存储,该存储旨在有效地处理事务和数据仓库,这些商店和数据仓库旨在支持重复的分析和报告。

由于以下原因,数据仓库正在增加压力:

  • 需要增加在线保持更长的数据。

  • 增加对处理资源的需求,以改变其他仓库和数据集市的数据。

  • 增加对创新分析的需求,这需要分析师在已经完成的正规报告的顶部对仓库数据构成问题。这可能会产生大量的额外处理。

在该图中,我们可以看到数据仓库作为图中最右侧列出的各种分析的主要资源。
其中我们还可以看到所代表的着陆区的概念,其中Hadoop将从各种传入数据源存储数据。

要启用Hadoop Randing区,我们需要确保我们可以将各种数据源的数据写入HDFS。
对于关系数据库,良好的解决方案是使用SQOOP。

但是降落数据只是一个开始。

当我们将数据从许多来源移动到着陆区时,我们将不可避免地遇到的一个问题是数据质量。
对于拥有许多操作数据库是常见的,其中关键细节不同,例如,客户可能被称为"D. Deroos"在一个数据库中,以及另一个数据库中的"dirk deroos"。

另一个质量问题在于,在客户或者员工中繁忙的系统中,其中其中找到一个名字和姓氏在数据字段中切换或者其他错误信息的依赖,它并不罕见。

数据质量问题是数据仓库环境的重要交易,这就是为什么要在其他系统的数据中进行清洁和验证步骤的原因,因为它将其加载到仓库中。
这一切都归功于信任:如果我们向脏的问题询问问题,则无法相信报告中的答案。

因此,虽然在从Hadoop Randing区的不同来源访问许多不同数据集的巨大潜力,但我们必须考虑到数据质量以及我们可以信任数据的数量。