大规模并行处理数据库

时间:2020-02-23 14:33:35  来源:igfitidea点击:

为了更好地了解SQL-On-Hadoop替代品到Hive,可能有助于首先在大规模并行处理(MPP)数据库上审查底漆。

Apache Hive位于Hadoop分布式文件系统(HDFS)和MapReduce系统的顶部分层,并向数据(Hiveql,精确)提供SQL样编程接口。
部署在群集中的Hadoop技术组合类似于IT市场中存在一段时间的MPP数据库。

MPP数据库通常提供在通过高速互连组合在一起的服务器集群上运行的SQL接口和关系数据库管理系统(RDBMS)。
该图显示了通常包括在SQL-On-Hadoop解决方案中的RDBM的组件。

关系数据系统已经发展到了大多数产品中最佳实践在最佳查询执行基础架构中出现了最佳实践的程度。
该图在查询的流程中显示了这一点,因为它由RDBMS引擎处理。

首先,解析和解查询文本。
然后将查询的语法树编译成逻辑执行计划,然后优化以形成最终的物理执行计划,然后由运行时执行。
对于许多SQL-On-Hadoop解决方案,我们可以看到在Hadoop中部署的类似组件。

MPP群集通常称为具有共享的架构,因为每个系统都有自己的CPU,内存和磁盘。
但是,通过数据库软件和高速互连,系统函数整个函数,并且可以将新服务器添加到群集中。
整个系统明确调整以提供快速,交互式查询响应。

MPP数据库通常比传统的RDBMS更灵活,可扩展性和成本有效,托管在大型多处理器服务器上。