复制Hadoop分布式文件系统中的数据块

时间:2020-02-23 14:33:36  来源:igfitidea点击:

Hadoop分布式文件系统(HDFS)旨在将数据存储在廉价,更不可靠,硬件上。
廉价有一个有吸引力的戒指,但它确实提出了对整体系统的可靠性的担忧,特别是为了确保数据的高可用性。

计划提前灾难,HDF背后的大脑决定设置系统,以便它将存储每个数据块的三个(计数'EM - 三)副本。

HDFS假定每个磁盘驱动器和每个从节点都固有不可靠,因此,清楚地,必须在选择存储数据块的三个副本时注意。

该图显示了较早文件中的数据块如何在Hadoop集群上镶边 - 这意味着它们在从节点之间均匀分布,以便无论磁盘,节点或者机架故障如何,块的副本仍然可用。

所示文件有五个数据块,标记为A,B,C,D和E。
如果我们仔细查看,我们可以看到此特定群集由两个带有两个节点的机架组成,并且每个数据块的三个副本已经遍布各种从节点。

Hadoop集群中的每个组件都被视为潜在的失败点,因此当HDFS将原始块的副本存储在Hadoop集群上时,它试图确保块副本存储在不同的故障点中。

例如,看一下块A.在需要存储时,选择从节点3,并且将块A的第一副本存储在那里。
对于多个机架系统,HDFS然后确定剩余的块A的剩余两个副本需要存储在不同的机架中。
因此,块A的第二副本存储在从节点1上。

最终副本可以存储在与第二个副本相同的机器上,但不在同一从节点上存储,因此它存储在从节点2上。