什么是大数据
时间:2020-01-09 10:34:30 来源:igfitidea点击:
大数据意味着非常大量的数据。大数据一词用于描述如此庞大且不断增长的数据,其超出了传统数据管理和处理工具的存储和处理能力。
一些例子
- Facebook存储有关帖子,通知点击,帖子赞,上传的照片的数据,每天产生约600 TB的数据,这意味着一个月中有18 PB的数据。
- NCCS(美国国家航空航天局(NASA)气候模拟中心)专注于大约32 PB数据的气候和天气数据仓库。
- 到2030年,仅气候变化数据存储库的规模就有望增长到近350 PB。
- 沃尔玛每小时处理超过一百万次客户交易,并将这些交易导入估计包含2.5 PB以上数据的数据库中。
大数据怎么办
提供具有PB级数据的此类示例非常好,但问题是如何处理此类数据。大数据不仅是海量数据生成的例子。大数据的一个方面是提出存储此类海量数据的技术,而另一个更重要的方面是能够分析该数据并使用它来更快,更准确地制定业务决策,以更好地了解消费者行为。
大数据中的数据
大数据中的数据可以是任何类型的数据。结构化,半结构化,非结构化,例如文本,视频,音频,传感器数据,日志文件等
- 结构化数据–任何以固定格式组织的数据都可以称为结构化数据,例如存储在关系数据库或者电子表格中的数据。对于创建结构化数据,我们将具有关于将存储什么类型的数据以及如何存储该数据的预定义规则。
- 半结构化数据–不能确认与结构化数据相关联的刚性结构但仍具有某种结构的任何数据,例如具有标签或者其他标记来分离和标识不同的元素,以及数据中包含记录和字段的层次结构,被称为半结构化数据。例如-XML,JSON。
- 非结构化数据–顾名思义,非结构化数据与结构化数据完全相反,这意味着就文件或者记录中的数据类型和字段位置而言,它不符合任何预定义的规则。非结构化数据通常包括多种类型的数据,在这些数据中,我们可能会同时以未定义的方式组合文本,视频和图像。非结构化数据的示例包括书籍,任何网页,电子邮件等。由于它不适合任何定义的格式,因此分析非结构化数据变得非常困难。
3大数据
大数据可以通过以下特征来描述–
- 容量–此特性是指生成和存储的数据量。数据的大小决定了可以从中得出的潜在见解,甚至决定了该数据实际上是否可以视为大数据。
- 速度–此特性是指数据生成和处理的速度。例如–处理每天在证券交易所创建的交易数据,以识别潜在的欺诈行为。实时分析消费者的点击流数据,为消费者提供合适的替代产品或者产品。
- 多样性–此特征是指数据的类型和性质。数据可以是结构化,非结构化,半结构化的。一起分析所有这些类型的数据可提供更好的见解。
这3个V被扩展,现在甚至被称为5 V,以为大数据添加新特性。
- 可变性–此特征是指数据流的不一致。数据流量非常大时可能会有一些高峰时间,这可能会使流程就位,处理和管理数据的效率降低。
- 准确性–此特性是指从多个来源收集的数据的质量。
一些大数据技术
用于存储和分析大数据的一些大数据技术包括:
- Apache Hadoop –实际上,多年来,Hadoop已发展为具有相关技术的完整生态系统,例如Hadoop,HDFS,Hive,PIG甚至Apache Spark。
- NoSQL数据库–用于存储非结构化数据并提供非常快的性能。一些NoSQL数据库是MongoDB,Cassandra,Hbase。
- Presto –由Facebook开发的Presto是一个开源的分布式SQL查询引擎,用于对大小从GB到PB的各种数据源运行交互式分析查询。