Hadoop Zookeeper为大数据

时间:2020-02-23 14:33:29  来源:igfitidea点击:

Hadoop为解决大数据挑战的最大技术是其能力分割和征服Zookeeper。
划分问题后,征服依赖于在Hadoop集群上使用分布式和并行处理技术的能力。

对于一些大数据问题,互动工具无法提供制定业务决策所需的见解或者及时性。
在这些情况下,我们需要创建分布式应用程序来解决这些大数据问题。
zookeeper是Hadoop的协调方式的方式,这些方法是这些分布式应用程序的所有元素。

Zookeeper作为一种技术实际上很简单,但它的函数很强大。
可以说,如果不是不可能的话,难以创建弹性,容错分布式Hadoop应用程序。
zookeeper的一些函数如下:

  • 进程同步:zookeeper协调群集中多个节点的启动和停止。这确保所有处理都以预期的顺序发生。当整个过程组完成时,然后只能发生后续处理。

  • 配置管理:zookeeper可用于将配置属性发送到群集中的任何或者所有节点。当处理依赖于所有节点上可用的特定资源时,Zookeeper可确保配置的一致性。

  • 自选:zookeeper了解群集的化妆,可以为其中一个节点分配"领导者"角色。此Leader/Master代表群集处理所有客户端请求。如果Leader节点失败,则将从剩余节点中选择另一个领导者。

  • 可靠的消息传递:尽管ZooKeeper中的工作负载松散耦合,但我们仍然需要在特定于分布式应用程序的群集中的节点之间和节点之间的通信。 ZooKeeper提供了发布/订阅函数,允许创建队列。即使在节点故障的情况下,此队列也可以保证消息传递。

因为zookeeper正在管理服务中的节点组到单个分布式应用程序,它最好跨机架实现。
这与群集本身的要求(在机架内)非常不同。
潜在的原因很简单:ZooKeeper需要执行,是弹性的,并且在群集本身的级别处具有容错。

请记住,Hadoop集群已经容错已容错,因此它将自身愈合。
Zookeeper只需要担心自己的容错。

Hadoop生态系统和支持的商业分布是不断变化的。
介绍了新工具和技术,现有技术得到改善,有些技术通过(希望更好)更换退休。
这是开源最大的优势之一。

另一个是通过商业采用开源技术。
这些通过以适度的成本提供支持和服务来提高产品,使其更好地为每个人提供更好。
这就是Hadoop Ecosystem如何发展的方式,为什么有助于解决大数据挑战是一个不错的选择。