Hadoop源码阅读（二）：DataNode启动-Toy模板网

这篇具有很好参考价值的文章主要介绍了Hadoop源码阅读（二）：DataNode启动。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

说明：
1.Hadoop版本：3.1.3
2.阅读工具：IDEA 2023.1.2
3.源码获取：Index of /dist/hadoop/core/hadoop-3.1.3 (apache.org)
4.工程导入：下载源码之后得到 hadoop-3.1.3-src.tar.gz 压缩包，在当前目录打开PowerShell，使用tar -zxvf指令解压即可，然后使用IDEA打开hadoop-3.1.3-src文件夹，要注意配置好Maven或Gradle仓库，否则jar包导入会比较慢
5.参考课程：尚硅谷大数据Hadoop教程，hadoop3.x搭建到集群调优，百万播放_哔哩哔哩_bilibili

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

ctrl + n 全局查找datanode，进入DataNode.java

官方对其介绍如下：

/**********************************************************
 * DataNode is a class (and program) that stores a set of
 * blocks for a DFS deployment.  A single deployment can
 * have one or many DataNodes.  Each DataNode communicates
 * regularly with a single NameNode.  It also communicates
 * with client code and other DataNodes from time to time.
 *
 * DataNodes store a series of named blocks.  The DataNode
 * allows client code to read these blocks, or to write new
 * block data.  The DataNode may also, in response to instructions
 * from its NameNode, delete blocks or copy blocks to/from other
 * DataNodes.
 *
 * The DataNode maintains just one critical table:
 *   block-> stream of bytes (of BLOCK_SIZE or less)
 *
 * This info is stored on a local disk.  The DataNode
 * reports the table's contents to the NameNode upon startup
 * and every so often afterwards.
 *
 * DataNodes spend their lives in an endless loop of asking
 * the NameNode for something to do.  A NameNode cannot connect
 * to a DataNode directly; a NameNode simply returns values from
 * functions invoked by a DataNode.
 *
 * DataNodes maintain an open server socket so that client code 
 * or other DataNodes can read/write data.  The host/port for
 * this server is reported to the NameNode, which then sends that
 * information to clients or other DataNodes that might be interested.
 *
 **********************************************************/

找到main方法

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入secureMain方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入createDataNode方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入instantiateDataNode方法（初始化DN）：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入makeInstance方法（实例化对象）：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入DataNode类：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入startDataNode方法，之后进行DN启动的一系列操作；

1.初始化DataXceiverServer（initDataXceiver）

在startDataNode方法中：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入initDataXceiver方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

dataXceiverServer是一个服务（线程），DN利用该服务来接收客户端和其他DN发送过来的数据服务

2.初始化HTTP服务（startInfoServer）

在startDataNode方法中：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入startInfoServer方法，实例化了一个httpserver

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入DatanodeHttpServer类：（DatanodeHttpServer.java）

也是通过builder构建了一个HTTP server

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

3.初始化RPC服务器（initIpcServer）

在startDataNode方法中：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入initIpcServer，构建RPC服务器

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

4.向NameNode注册（refreshNamenodes）

在startDataNode方法中：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入refreshNamenodes（BlockPoolManager.java）

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入doRefreshNamenodes方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

先是创建BPOS，然后启动所有的BPOS

接下来进入createBPOS方法

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

可以看到根据NameNode个数创建对应的服务：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

有多少个NN就创建多少个对应的服务

进入startAll方法

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

可以看到，遍历了所有的bpos，依次进行启动

这里的offerServices是存储所有通过createBPOS方法创建的bpos的集合：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入bpos.start()方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

继续进入：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

看到bpThread，表示开启一个线程，因此查找其run方法

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

可以看到通过connectToNNAndHandshake方法向NN进行注册：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

通过connectToNN方法来获取NN的RPC客户端对象，进入该方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入DatanodeProtocolClientSideTranslatorPB：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

通过createNamenode方法来创建NN的RPC代理：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

通过register方法来向NN进行注册：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

通过bpNamenode.registerDatanode将注册信息发送给NN（bpNamenode即创建的NN RPC proxy）

注意：这里的registerDatanode方法，由DN调用，但执行在NN

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

去FSNamesystem中查找：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

ctrl+alt+h查看该方法的调用：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

于是到NameNodeRpcServer中去查找：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

可以看到，DN的信息向NN注册这一步骤是在该方法中完成的；

接下来回到FSNamesystem中，进入blockManager.registerDatanode方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入datanodeManager.registerDatanode：（DatanodeManager.java）

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入addDatanode

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

5.向NameNode发送心跳

回到startAll方法，再向前进入到BPServiceActor.java中的run方法

找到其中的offerService方法

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入offerService方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入sendHeartBeat方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

这里的bpNamenode是在connectToNNAndHandshake方法中获取到的NN的代理

因此该方法实际上是通过NN的RPC客户端将心跳信息发送给NN

因此该方法实际的实现是在NN中，因此在NameNodeRpcServer.java中搜索sendHeartbeat：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

通过handleHeartbeat来处理DN的心跳信息，进入该方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

处理DN发送过来的心跳并作出相应；

继续进入handleHeartbeat方法：（DatanodeManager.java）

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

通过updateHeartbeat方法来更新心跳信息，进入该方法：（HeartbeatManager.java）

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

再次进入：（BlockManager.java）

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

继续进入：（DatanodeDescriptor.java）

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

进入updateHeartbeatState方法：

hadoop如何启动datanode,大数据,hadoop,hadoop,大数据,分布式

文章来源地址https://www.toymoban.com/news/detail-732788.html

到了这里，关于Hadoop源码阅读（二）：DataNode启动的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

Hadoop源码阅读（二）：DataNode启动

1.初始化DataXceiverServer（initDataXceiver）

2.初始化HTTP服务（startInfoServer）

3.初始化RPC服务器（initIpcServer）

4.向NameNode注册（refreshNamenodes）

5.向NameNode发送心跳

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

支付宝扫一扫领取红包，优惠每天领

二维码1

二维码2