用hadoop图像分类
然而,图像分类需要大量的数据处理资源,这限制了部署的规模。
图像分类是Hadoop世界的热门话题,因为没有主流技术能够 - 直到Hadoop来自于这种昂贵的加工,在这种昂贵和有效的规模上开放门。
图像分类从我们构建培训集的概念开始,并且计算机学会识别和分类他们正在查看的内容。
以相同的方式有更多的数据有助于构建更好的欺诈检测和风险模型,它还可以帮助系统更好地分类图像。
在此用例中,数据被称为培训集以及模型是分类器。
分类器识别声音,图像或者视频内的函数或者模式,并适当地对它们进行分类。
分类器由训练集进行建立和迭代地改进,以便它们的精确评分(衡量准确性)和召回分数(覆盖量度)很高。
Hadoop非常适合于图像分类,因为它提供了一种巨大的并行处理环境,不仅为创建分类器模型(迭代训练集),还提供了几乎无限的可扩展性来处理和运行大量非结构化数据卷中的这些分类器。
考虑多媒体来源,如youtube,facebook,Instagram和flickr - 全部都是非结构化二进制数据的来源。
该图显示了一种方式,我们可以使用Hadoop来扩展大量存储的图像和视频的处理,以实现多媒体语义分类。
我们可以看到与Hadoop处理框架相关的所有概念应用于此数据。
请注意图像如何加载到HDF中。
随着时间的推移建立的分类器模型现在将应用于此解决方案的地图阶段的额外图像函数组件。
正如我们在右下角看到的那样,该处理的输出包括图像分类,范围从漫画到体育和地点等。
Hadoop也可用于音频或者语音分析。
我们使用的安全行业客户创建一个音频分类系统,以分类通过围绕核反应堆周边铺设的声学丰富的光纤电缆听到的声音。
例如,与人类声音的窃窃私语相比,该系统知道如何几乎瞬间分类风的耳语,或者区分野生动物的周边奇克兰人的人类脚步声的声音。
此描述可能有一种明星迷航的感觉,但我们现在可以看到实例。
事实上,IBM通过IBM多媒体分析和检索系统(IMARS)在世界上公布世界上最大的图像分类系统之一。
以下是Imars搜索Alpine滑雪术语的结果。
在图的顶部,我们可以看到映射到由Hadoop处理的图像集的分类器的结果以及相关的标签云。
注意更粗略定义的父分类,而不是更粒度。
实际上,请注意多个分类层:滚入,滚入 - 通过分类器模型自动生成,使用Hadoop构建和评分。
这些图片都没有任何添加的元数据。
没有人打开iPhoto并将图像标记为冬季运动,以使其出现在此分类中。
这是冬季运动分类器,以识别在冬季环境中播放的体育属性和特征。
图像分类具有许多应用程序,并且能够在大规模使用Hadoop开辟此分类,为其他应用程序开辟更多的分析可能性,因为其他应用程序可以使用为图像生成的分类信息。
看看来自卫生行业的这个例子。
亚洲的一个大型卫生机构专注于通过移动诊所向农村人口提供医疗保健,分布在大型土地上。
该机构面临的重大问题是分析其移动诊所中产生的医学成像数据的后勤挑战。
放射科医生在世界的这一部分是一种稀缺的资源,所以将医学图像传送到中心点,并有一支医生的军队认为它们是有意义的。
然而,检查图像的医生很快被过载。
原子能机构正在努力在分类系统上,以帮助确定可能的条件,以有效地为医生提供核实的建议。
早期测试显示了这种策略,以帮助减少错过或者不准确的诊断数,节省时间,金钱,以及大多数人的策略。