加入收藏 | 设为首页 | 会员中心 | 我要投稿 上饶站长网 (https://www.0793zz.com.cn/)- 数据库平台、视觉智能、智能搜索、决策智能、迁移!
当前位置: 首页 > 大数据 > 正文

HDFS分布式存储中NameNode 和DataNode 有什么差异?

发布时间:2021-06-04 15:54:43 所属栏目:大数据 来源:互联网
导读:HDFS 是Hadoop 核心组成之一,是分布式计算中数据存储管理的基础,被设计成适合运行在通用硬件上的分布式文件系统。 HDFS 的功能模块 (1) Client Client 是用户与HDFS 交互的手段,当文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block ,然后进行

HDFS 是Hadoop 核心组成之一,是分布式计算中数据存储管理的基础,被设计成适合运行在通用硬件上的分布式文件系统。

HDFS 的功能模块

(1) Client

Client 是用户与HDFS 交互的手段,当文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block ,然后进行上传;Client通过与NameNode 交互,来获取文件的位置信息;与 DataNode 交互,读取或者写入数据;Client 还可以提供NameNode 格式化等一些命令来管理HDFS ;同时,Client 可以通过对HDFS 的增删改查等操作来访问HDFS 。

(2) NameNode

NameNode 就是HDFS 的Master 架构,它维护着文件系统树及整棵树内所有的文件和目录,HDFS 文件系统中处理客服端读写请求、管理数据块(Block )的映射信息、配置副本策略等管理工作由NameNode 来完成。

(3) DataNode

NameNode 下达命令,DataNode 执行实际操作。DataNode 表示实际存储的数据块,同时可以执行数据块的读写操作。

(4) Secondary NameNode

Secondary NameNode 的功能主要是辅助NameNode ,分担其工作量;在紧急情况下可以辅助恢复NameNode ,但是它不能替换NameNode 并提供服务。

HDFS 的优势

  • 容错性:数据自动保存多个副本。通过增加副本的形式,提高容错性。其中一个副本丢失以后,可以自动恢复。
  • 可以处理大数据:能够处理数据规模达到GB 、TB 甚至PB 级别的数据;能够处理百万规模以上的文件数量。
  • 可以构建在廉价的机器上,通过多副本机制,提高可靠性。

HDFS 的特点

  • 故障检测和恢复 – 由于 HDFS 包含大量产品硬件,组件故障频繁。因此, HDFS 应具有快速自动故障检测和恢复的机制。
  • 数据集的管理 – HDFS 每个群集都有数百个节点来管理具有大型数据集的应用程序。
  • 数据硬件处理 – 当计算在数据物理附近时,可以高效地完成请求的任务。特别是在涉及大量数据集时,它减少了网络流量并提高了吞吐量。

(编辑:上饶站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读