Hadoop执行Job时因超时自动kill,信息如下:
Task attempt_201305231045_3281_m_000003_0 failed to report status for 600 seconds. Killing!
原因:
1.执行MR的时间过长,超过了mapred.task.timeout中设置的值
2.MR执行中因业务比较复杂,没有report status从而使得master感觉不到此task的存在而kill
解决方案:
方案1修改mapred-site.xml:
mapred.task.timeout 600000 可以改的更长!
方案2根据业务需要手动set值:
conf.setLong("mapred.task.timeout", 900000L);
方案3定时report status
在Mapper或者Reducer的时候,执行复杂的业务操作的时候report status
context.progress();