如何阅读 Hadoop 这样的百万行代码的开源项目

发布时间：2021-05-04 12:22:02 所属栏目：业界来源：互联网

导读：HDFS 是大数据的最基础的设施了，几乎所有的离线存储都在 HDFS 上。但是在大规模 HDFS 集群中，下面的问题通常会让我们无比头疼：元数据的量级超过亿级之后，NameNode 的内存也会变得非常巨大，启动和维护都变的异常困难; 如何保障 HDFS 的高可用? NameNod

HDFS 是大数据的最基础的设施了，几乎所有的离线存储都在 HDFS 上。

但是在大规模 HDFS 集群中，下面的问题通常会让我们无比头疼：

以上种种问题，都需要我们阅读源码，甚至要修改它的源码才能解决。

所以虽然阅读源码非常痛苦，但是这个坎还是得过的。

首先 hadoop 是用 java 写的，所以一些 java 基础知识必不可少，比如锁，线程，设计模式，java 虚拟机，java io，不求很深入，基础得知道。

其次，不能一行行的读代码，这样很容易迷失在无边际的代码中，逃不出来，最后很容易就放弃了。

最后，以具体场景来驱动代码阅读。比如本文就是以 NameNode 的启动过程，来驱动代码阅读的。并且把关键的流程节点和类用流程图记录下来。

（编辑：无锡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!