重点Hiveql特色
充满活力和活动的Apache Hive社区不断增加已经广泛的函数集,这使得更加困难的覆盖。
以下列表总结了一些关键的Hiveql函数:
安全性:Apache Hive提供了一个安全子系统,可以有助于防止偶然的数据损坏或者妥协工作组的受信任成员之间。但是,Hive语言手册清楚地说明了Hive安全子系统的设计不旨在防止邪恶的用户妥协Hive系统。
可以为个人用户,组和管理角色建立Hive安全性。 Hive提供可授予或者撤销用户,组或者管理角色的权限。通过向Metastore提供授权,Hive 0.10释放了多用户环境中的安全性,未来的Hive发布将提供与Hadoop安全框架的越来越多的集成。 Kerberos正在成为保护Apache Hadoop的首选技术。多用户锁定:在使用Apache ZooKeeper配置时,Hive支持多用户仓库访问。在没有这种支持的情况下,一个用户可以同时读取另一个用户正在删除该表 - 这显然是不可接受的。
通过Hive-site.xml文件中的配置变量启用多用户访问。配置后,Hive隐式地通过ZooKeeper获取锁,以进行某些表操作。用户还可以在Hive CLI中显式管理锁。锁定和关联的配置属性/变量在Hive语言手册中介绍。压缩:数据压缩不仅可以在HDF上保存空间,而且还通过降低输入/输出操作的总体大小来提高性能。此外,Hadoop映射器和减速器之间的压缩可以提高性能,因为在群集中的节点之间传递了较少的数据。
Hive支持映射器和减速器之间的中间压缩以及表输出压缩。 Hive还了解如何将压缩数据进入仓库。可以通过Hive的Load Data命令读取与GZIP或者BZIP2压缩的文件。函数:Hiveql提供丰富的内置运营商,内置函数,内置汇总函数和内置的表生成函数。本章中的几个例子使用内置运算符以及内置聚合函数(例如,例如AVG,MIN和COUNT)。
要列出所有特定Hive释放的所有内置函数,请使用show函数hiveql命令。我们还可以使用hiveql命令检索有关内置函数的信息,请使用hiveql命令描述函数culify_name并描述函数扩展函数_name。
使用扩展关键字有时返回指定内置函数的使用示例。此外,Hive允许用户创建自己的函数,称为用户定义的函数或者UDF。使用Hive的基于Java的UDF框架,我们可以创建其他函数,包括聚合和表生成函数。此函数是Hive可以用作ETL工具的原因之一。