使用Hadoop日志数据分析

时间:2020-02-23 14:33:34  来源:igfitidea点击:

日志分析是遗失的Hadoop项目的常用情况。
事实上,Hadoop的最早用途是为了对Clickstream日志的大规模分析 - 记录有关人们访问的网页的数据以及他们访问它们的订单。

IT基础架构生成的所有数据日志通常被称为数据排气。
日志是一个运行服务器的副产品,就像来自工作发动机排气管的烟雾一样。
数据排气具有污染或者浪费的内涵,许多企业无疑地对此进行了解这种数据。

日志数据通常会快速增长,并且由于产生的高卷,分析可能会乏味。
而且,该数据的潜在价值通常不清楚。
因此,IT部门的诱惑是将此日志数据存储在合理可能的时间内。
(毕竟,它需要保留数据的费用,如果没有被感知的商业价值,为什么要存储它?
)

但是Hadoop改变了数学:存储数据的成本相对便宜,而Hadoop最初是特别开发的,特别是对于日志数据的大规模批处理处理。

日志数据分析用例是启动Hadoop旅程的有用地点,因为我们正在删除我们使用的数据或者"丢弃到地板"的机会很好。
一些始终记录每周特拉(TB)或者更多客户Web活动的丢弃没有分析的数据(这让我们想知道为什么他们困扰收集它)。

为了快速入门,在此用例中的数据很容易获得,如果我们使用其他(管理)数据启动Hadoop旅程,通常不会包含与我们遇到的相同问题。

当行业分析师讨论存在的迅速增加的数据量(截至2014年的4.1个exabytes - 超过400万1TB硬盘)时,日志数据占这些增长的大部分增长。
难怪:几乎所有生活方式现在都会导致数据的产生。
智能手机可以为活动用户生成数百个日志条目,不仅跟踪语音,文本和数据传输,还可以进行地理位置数据。

大多数家庭现在都有智能电表,记录其电力使用。
较新的汽车有数千个传感器,这些传感器记录其状况和使用的方面。
在浏览Internet时,我们在浏览的每次点击和鼠标移动会导致要生成的日志条目级联。

每次购买某些东西 - 即使不使用信用卡或者借记卡 - 系统,也会在数据库中记录 - 以及日志中的活动。
我们可以看到一些更常见的日志数据源:IT服务器,Web Clickstream,传感器和事务系统。

每个行业(以及刚才描述的所有日志类型)都有巨大的有价值分析的潜力 - 特别是当我们在特定类型的活动中归零时,请将发现与另一个数据集相关联以提供上下文。

例如,考虑这个典型的基于Web的浏览和购买体验:

  • 你在上冲浪,寻找购买物品。

  • 我们单击以读取捕捉眼睛的产品的描述。

  • 最终,我们将项目添加到购物车并继续结帐(购买行动)。

但是,在看到运输成本后,我们决定该项目不值得,我们关闭浏览器窗口。
每次点击我们所做的点击 - 然后停止制作 - 有可能对背后的提供有价值的洞察力。

在此示例中,假设此业务收集Clickstream数据(关于每个鼠标点击和页面视图的数据,其中一个访客"触摸"),目的是理解如何更好地为客户提供服务。
电子商务企业之间的一个共同挑战是识别废弃购物车后面的关键因素。
当我们对Clickstream数据进行更深入的分析并检查站点上的用户行为时,仍会突然出现。

贵是否知道看似简单的问题的答案,"某些产品是否被遗弃超过其他产品?
"或者问题的答案,"如果减少购物车放弃10%,则可以重新获得多少收入?
"以下介绍了我们可以向业务领导者展示的那种报告的示例,以寻求他们在Hadoop原因中的投资。

要到达我们可以生成数据以构建所显示的图形的程度,我们将隔离个人用户的Web浏览会话(称为Sessionization的过程),识别其购物车的内容,然后建立交易状态在会话结束时 - 通过检查Clickstream数据来检查。

以下是如何通过对IP地址分组所有Clicks和URL地址来组装用户Web浏览会话的示例。

在Hadoop上下文中,我们始终使用键和值 - MapReduce的每个阶段输入并在键和值组中输出数据。
密钥是IP地址,值由时间戳和URL组成。
在地图阶段期间,用户会话并行组装,以用于存储在Hadoop集群中的ClickStream数据集的所有文件块。

地图阶段返回以下元素:

  • 访问过的最后一页

  • 购物车中的项目列表

  • 每个用户会话的事务状态(由IP地址密钥索引)

Reducer拾取了这些记录,并执行了每月废弃的购物车的数量和值的总数,并提供有人在结束用户会话之前查看的最常见最终页面的总数。