HDFS分布式存储中NameNode 和DataNode 有什么差异？

发布时间：2021-06-04 15:54:43 所属栏目：大数据来源：互联网

导读：HDFS 是Hadoop 核心组成之一，是分布式计算中数据存储管理的基础，被设计成适合运行在通用硬件上的分布式文件系统。 HDFS 的功能模块 (1) Client Client 是用户与HDFS 交互的手段，当文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block ，然后进行

HDFS 是Hadoop 核心组成之一，是分布式计算中数据存储管理的基础，被设计成适合运行在通用硬件上的分布式文件系统。

HDFS 的功能模块

(1) Client

Client 是用户与HDFS 交互的手段，当文件上传 HDFS 的时候，Client 将文件切分成一个一个的 Block ，然后进行上传;Client通过与NameNode 交互，来获取文件的位置信息;与 DataNode 交互，读取或者写入数据;Client 还可以提供NameNode 格式化等一些命令来管理HDFS ;同时，Client 可以通过对HDFS 的增删改查等操作来访问HDFS 。

(2) NameNode

NameNode 就是HDFS 的Master 架构，它维护着文件系统树及整棵树内所有的文件和目录，HDFS 文件系统中处理客服端读写请求、管理数据块(Block )的映射信息、配置副本策略等管理工作由NameNode 来完成。

(3) DataNode

NameNode 下达命令，DataNode 执行实际操作。DataNode 表示实际存储的数据块，同时可以执行数据块的读写操作。

(4) Secondary NameNode

Secondary NameNode 的功能主要是辅助NameNode ，分担其工作量;在紧急情况下可以辅助恢复NameNode ，但是它不能替换NameNode 并提供服务。

HDFS 的优势

容错性：数据自动保存多个副本。通过增加副本的形式，提高容错性。其中一个副本丢失以后，可以自动恢复。
可以处理大数据：能够处理数据规模达到GB 、TB 甚至PB 级别的数据;能够处理百万规模以上的文件数量。
可以构建在廉价的机器上，通过多副本机制，提高可靠性。

HDFS 的特点

故障检测和恢复 – 由于 HDFS 包含大量产品硬件，组件故障频繁。因此， HDFS 应具有快速自动故障检测和恢复的机制。
数据集的管理 – HDFS 每个群集都有数百个节点来管理具有大型数据集的应用程序。
数据硬件处理 – 当计算在数据物理附近时，可以高效地完成请求的任务。特别是在涉及大量数据集时，它减少了网络流量并提高了吞吐量。

（编辑：上饶站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

火爆全网的数字人，究	总做描述性统计深入的
几款日常的开源无代码	2022年优质预测分析工