Hadoop SQOOP获得大数据

时间:2020-02-23 14:33:28  来源:igfitidea点击:

SQOOM(SQL-to-Hadoop)是一个大数据工具,提供从非Hadoop数据存储中提取数据的能力,将数据转换为可由Hadoop使用的表单,然后将数据加载到HDF中。
此过程称为ETL,用于提取,转换和加载。

虽然将数据置于Hadoop时对于使用MapReduce进行处理至关重要,但将数据从Hadoop中获取数据并进入其他类型的应用程序也是至关重要的。
SQOOP也能做到这一点。

虽然有时需要实时移动数据,但最常需要在批量中加载或者卸载数据。
像猪一样,SQOOP是一个命令线解释器。
我们在解释器中执行sqop命令,一次执行一个。
在SQOOP中找到了四个关键函数:

  • 批量导入:SQOP可以将单个表或者整个数据库导入HDFS。数据存储在HDFS文件系统中的本机目录和文件中。

  • 直接输入:SQOOP可以直接导入和映射SQL(关系)数据库进入Hive和HBase。

  • 数据交互:SQOOP可以生成Java类,以便我们可以以编程方式与数据进行交互。

  • 数据导出:SQOOP可以使用基于目标数据库的细节将直接从HDFS从HDFS导出到关系数据库中的数据。

SQOOM通过查看要导入的数据库并为源数据选择适当的导入函数的作用。
在识别输入之后,它然后读取表(或者数据库)的元数据,并创建输入要求的类定义。

我们可以强制sqoop非常有选择,以便我们只需在输入之前要查找的列,而不是完成整个输入,然后查看数据。
这可以节省相当长的时间。
从外部数据库到HDFS的实际导入是由SQOOP在幕后创建的MapReduce作业执行的。

SQOOM是非编程机的有效工具。
要注意的其他重要项目是依赖于HDFS和MapReduce等底层技术。
你在Hadoop生态系统的整个元素中反复看到这一点。