`
houzhaowei
  • 浏览: 492794 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hdfs 的容灾

阅读更多

dfs.name.dir (namenode的路径) 可以配置多个路径(也就是说可以多磁盘)但这些目录中的文件都是一样的 (可以防止某磁盘挂掉,做备份)

dfs.data.dir (datanode的路径) 也可配置多个。但数据时不一样的也就是利用多块磁盘来存储数据。至于datanode 的容灾措施, hdfs 会默认把datanode数据copy三份  一个放在本地机架的节点,一个放在同一机架的另一节点,另一个放在其他机架上。 当namenode长时间接收不到(默认1h)datanode的心跳 就认为其挂掉 就会自动从备份数据中取数据块。

 

(1)在Namenode和Datanode之间维持心跳检测,当由于网络故障之类的原因,导致Datanode发出的心跳包没有被Namenode正常收 到的时候,Namenode就不会将任何新的IO操作派发给那个Datanode,该Datanode上的数据被认为是无效的,因此Namenode会检 测是否有文件block的副本数目小于设置值,如果小于就自动开始复制新的副本并分发到其他Datanode节点。
(2)检测文件block的完整性,HDFS会记录每个新创建的文件的所有block的校验和。当以后检索这些文件的时候,从某个节点获取block,会首先确认校验和是否一致,如果不一致,会从其他Datanode节点上获取该block的副本。
(3)集群的负载均衡,由于节点的失效或者增加,可能导致数据分布的不均匀,当某个Datanode节点的空闲空间大于一个临界值的时候,HDFS会自动从其他Datanode迁移数据过来。
(4)Namenode上的fsimage和edits日志文件是HDFS的核心数据结构,如果这些文件损坏了,HDFS将失效。因而, Namenode可以配置成支持维护多 个 FsImage和 Editlog的拷贝。任何对 FsImage或者 Editlog的修改,都将同步到它们的副本上。 它总是选取最近的一致的 FsImage和 Editlog使用。 Namenode在 HDFS是单点存在,如果 Namenode所在的机器错误,手工的干预是必须的。
(5)文件的删除,删除并不是马上从Namenode移出namespace,而是放在/ trash目录随时可恢复,直到超过设置时间才被正式移除。

分享到:
评论

相关推荐

    大数据容灾备份技术挑战和增量备份解决方案

    为此,在分析大数据容灾备份现状的基础上,结合行业对大数据容灾备份需求,讨论了几种典型的技术解决方案及其优缺点,提出了一种基于HDFS的增量数据备份恢复方案,具备分钟级RPO的系统远程备份特性,可以较好地解决...

    HBase数据容灾技术方案

    No-SQL、云计算、海量数据分析的普及,使我们越来越关注系统的可靠性(HighAvailability),数据容灾/数据恢复是高可用系统的一个很重要的技术组成,本文由简入深,一步步搭建一个HBase数据集群,并详细说明生产环境...

    Spark实时计算的开发平台RCS_ 阿里流式分析实战

    Spark开发者会将自己的代码完成开发并提交到YARN集群,之后任务的监控、报警、性能...jar包版本维护在HDFS上 数据接入覆盖主流中间件:Kafka、MetaQ、TT和SLS 任务的监控、报警、日志处理 Spark任务容灾 Spark集群容灾

    基于HDFS的云存储在高校信息资源整合中的应用

    基于HDFS的云存储是一种动态可调整、基于互联网的存储解决方案,用户可以通过通用和易用协议和应用程序接口通过网络访问存储目标,这种新技术对最终用户来说很有好处。云存储可以让用户很容易增加存储容量,而且不...

    滴雨科技openstack_image_making.pdf

    融合第三代区块链、人工智能、大数据、云存储、云计算、容灾备份、云搜索,物联网, web3.0功能。 一体化的低层文件系统和无缝扩展的集群平台,同时支持POSIX文件标准,兼容HDFS,块和对象存储。引领第三代综合私有云...

    openstack_installation_guide.pdf

    融合第三代区块链、人工智能、大数据、云存储、云计算、容灾备份、云搜索,物联网, web3.0功能。 一体化的低层文件系统和无缝扩展的集群平台,同时支持POSIX文件标准,兼容HDFS,块和对象存储。引领第三代综合私有云...

    2017最新大数据架构师精英课程

    80_hdfs-maven-hdfs API访问8 s8 J# W* l- i% x, ]: L! L 81_hdfs-maven-idea的集成处理 82_hdfs-block大小-副本数设定9 o$ I! k4 |+ ]9 q2 h8 ]# x6 B, S* Y$ W 83_hdfs-网络拓扑-写入剖析2 g4 Z0 j& K; Z, K 84_...

    cdh6.1.0搭建手册.pdf

    CDH是Cloudera公司推出的基于稳定版本的...同时Cloudera中提供的各种组件能让用户在一个可视化的UI界面中方便地管理,配置和监控Hadoop以及其它所有相关组件,并有一定的容错容灾处理;还有一系列实用的组件等等。

    基于Hadoop的视频收视率分析

    Hdfs并将数据导入到Hive中,然后使用Hue操作Hive进行离线数据分析,最后利用sqoop导入mysql,整个流程采用azkaban进行脚 本定时调度,达到系统需要具备的视频收视分析功能 (3) 大数据分析展示系统采用企业中现今流行...

    大数据方案介绍.docx

    典型云计算平台架构 开源成熟的hadoop生态体系 ... 大数据分析平台 一、海量数据存储及扩展能力 基于分布式HDFS文件系统存储,HA高可用配置, 数据多副本,异地备份容灾能力,以最经济的硬件成本支持海量数据存储和扩容

    Ambari Stack 和Service的增加和删除.pdf

    滴雨科技融合第三代区块链、人工智能、大数据、云存储、云计算、容灾备份、云搜索,物联网, web3.0功能。 一体化的低层文件系统和无缝扩展的集群平台,同时支持POSIX文件标准,兼容HDFS,块和对象存储。引领第三代...

    Cloudera CDH大数据平台搭建参考手册

    同时Cloudera中提供的各种组件能让用户在一个可视化的UI界面中方便地管理,配置和监控Hadoop以及其它所有相关组件,并有一定的容错容灾处理;Cloudera作为一个广泛使用的商业版数据中心管理工具更是对数据的安全决不...

    毕业设计-基于Hadoop平台开发的视频收视率分析源码+项目说明.zip

    (2) 使用WebMagic爬虫技术爬取B站视频数据信息,将采集到的数据导入kafka中,使用Flume框架技术从kafka采集数据到Hdfs并将数据导入到Hive中,然后使用Hue操作Hive进行离线数据分析,最后利用sqoop导入mysql,整个...

    Hbase+Spring boot实战分布式文件存储

    12-1 Bucket管理模块开发 12-2 HDFS和HBASE操作类1 12-3 HDFS和HBASE操作类2 12-4 Hos文件管理模块实体类开发 12-5 Hos创建删除Bucket方法开发 12-6 Hos上传文件方法开发 12-7 Hos获取文件方法开发 12-8 Hos删除...

    基于Hadoop实现的视频收视率分析,毕设项目+源代码+文档说明

    在搭建技术架构的必要基础之上采用了分布式的项目部署方式,保证在生产环境下的实际生产项目的容灾性和可扩展性,提高了系统的应用性和效率。最终完成了基于大数据技术的视频收视率分析设计与实现。具体的内容有: ...

    大数据中枢平台解决方案.docx

    数据存储与管理:平台提供高效的数据存储方案,支持分布式存储和容灾备份,确保数据的安全性和可靠性。同时,平台还提供数据管理工具,方便用户对数据进行查询、修改和删除等操作。 数据处理与分析:平台利用大数据...

    大数据下的用户行为分析.pdf

    ⼤数据下的⽤户⾏为分析 ⼤数据下的⽤户⾏为分析 1. Consumer behaviour is the study of when,why,how and... (4)镜像、快照等容灾能⼒; (5)可靠的服务⽀持; 6. 数据挖掘算法的编程复杂度和计算复杂度都⾮常⼤

    Fourinone分布式并行计算四合一框架

     但是fourinone并不提供一个分布式存储系统,比如文件数据的导入导出、拆分存储、负载均衡,备份容灾等存储功能,不过开发人员可以利用这些api去设计和实现这些功能,用来满足自己的特定需求。  二、自动化class...

    fourinone-3.04.25

    但是fourinone并不提供一个分布式存储系统,比如文件数据的导入导出、拆分存储、负载均衡,备份容灾等存储功能,不过开发人员可以利用这些api去设计和实现这些功能,用来满足自己的特定需求。 二、自动化class和jar...

Global site tag (gtag.js) - Google Analytics