首页
技术小册
AIGC
面试刷题
技术文章
MAGENTO
云计算
视频课程
源码下载
PDF书籍
「涨薪秘籍」
登录
注册
hadoop简介
HDFS-写文件
HDFS-读文件
HDFS-可靠性
ResourceManager
NodeManager
ApplicationMaster
Container
失败处理
读数据
Map
Shuffle
IO
测试
安装
配置
监控
参考教程
当前位置:
首页>>
技术小册>>
Hadoop入门教程
小册名称:Hadoop入门教程
###失败类型 - 程序问题 - 进程崩溃 - 硬件问题 - 失败处理 ####任务失败 运行时异常或者JVM退出都会报告给ApplicationMaster 通过心跳来检查挂住的任务(timeout),会检查多次(可配置)才判断该任务是否失效 一个作业的任务失败率超过配置,则认为该作业失败 失败的任务或作业都会有ApplicationMaster重新运行 ####ApplicationMaster失败 - ApplicationMaster定时发送心跳信号到ResourceManager,通常一旦ApplicationMaster失败,则认为失败,但也可以通过配置多次后才失败 - 一旦ApplicationMaster失败,ResourceManager会启动一个新的ApplicationMaster - 新的ApplicationMaster负责恢复之前错误的ApplicationMaster的状态(yarn.app.mapreduce.am.job.recovery.enable=true),这一步是通过将应用运行状态保存到共享的存储上来实现的,ResourceManager不会负责任务状态的保存和恢复 - Client也会定时向ApplicationMaster查询进度和状态,一旦发现其失败,则向ResouceManager询问新的ApplicationMaster ####NodeManager失败 - NodeManager定时发送心跳到ResourceManager,如果超过一段时间没有收到心跳消息,ResourceManager就会将其移除 - 任何运行在该NodeManager上的任务和ApplicationMaster都会在其他NodeManager上进行恢复 - 如果某个NodeManager失败的次数太多,ApplicationMaster会将其加入黑名单(ResourceManager没有),任务调度时不在其上运行任务 ####ResourceManager失败 - 通过checkpoint机制,定时将其状态保存到磁盘,然后失败的时候,重新运行 - 通过zookeeper同步状态和实现透明的HA 可以看出,一般的错误处理都是由当前模块的父模块进行监控(心跳)和恢复。而最顶端的模块则通过定时保存、同步状态和zookeeper来实现HA
上一篇:
Container
下一篇:
读数据
该分类下的相关小册推荐:
暂无相关推荐.