Hadoop源码分析之心跳机制

作者：用户投稿来源：网络发布时间： 13/01/12

一．心跳机制

1. hadoop集群是master/slave模式，master包括Namenode和Jobtracker，slave包括Datanode和Tasktracker。

2. master启动的时候，会开一个ipc server在那里，等待slave心跳。

3. slave启动时，会连接master，并每隔3秒钟主动向master发送一个“心跳”，这个时间可以通过”heartbeat.recheck.interval”属性来设置。将自己的状态信息告诉master，然后master也是通过这个心跳的返回值，向slave节点传达指令。

4. 需要指出的是：namenode与datanode之间的通信，jobtracker与tasktracker之间的通信，都是通过“心跳”完成的。

二．Datanode、Namenode心跳源码分析

既然“心跳”是Datanode主动给Namenode发送的。那Datanode是怎么样发送的呢？下面贴出Datanode.class中的关键代码：

代码一：

/**  
   * 循环调用“发送心跳”方法，直到shutdown  
   * 调用远程Namenode的方法  
   */ 
  public void offerService() throws Exception {  
•••  
    while (shouldRun) {  
      try {  
        long startTime = now();  
         // heartBeatInterval是在启动Datanode时根据配置文件设置的，是心跳间隔时间  
        if (startTime - lastHeartbeat > heartBeatInterval) {  
          lastHeartbeat = startTime;  
//Datanode发送心跳  
          DatanodeCommand[] cmds = namenode.sendHeartbeat(dnRegistration,  
                                                       data.getCapacity(),  
                                                       data.getDfsUsed(),  
                                                       data.getRemaining(),  
                                                       xmitsInProgress.get(),  
                                                       getXceiverCount());  
          myMetrics.addHeartBeat(now() - startTime);  
           
          if (!processCommand(cmds))  
            continue;  
        }  
         
      •••  
      }  
    } // while (shouldRun)  
  } // offerService