HBase 是如何做到毫秒级查询的 | 面试系列（四）

2014 年 7 月 17 日

接着前面几篇咱们继续：

如何比较装X地回答问题 | 面试系列.1

解释下 HDFS 的 Short-Circuit | 面试系列.2

HBase 有哪些优化点？| 面试系列.3

HBase 是如何做到毫秒级查询的？

1. 缓存

HBase有两块主要的内存缓存，MemStore 和 BlockCache。

具体的过程如下：

一个查询过来 regionserver 后首先用 MemStoreScanner 搜索 MemStore 里是否有所查的 rowKey ，这一步在内存中，所以是很快的。

如果不在 memstore 中，会经过一系列的索引寻址会定位到 block 的位置。

如果 block 在 BlockCache 缓存中则可以直接在内存中操作，速度很快，不需要再进行一次 IO 将整个 block 读取到内存中。

2. 过滤

RegionServer 启动的时候就会把每个HFile的起止 rowkey 加载到内存中，在定位 HFile 的时候可以过滤掉大部分HFile；
同时同样是加载到内存的 Bloom Block 也会通过之前说的 bloomFilter 也会过滤掉大部分一定不包含所查rowKey的HFile。

3. 索引

经过了上面的过滤，其实只剩下很少一部分的HFile需要去检索了，HBase有三级索引，第一级索引会常驻内存，二三级的索引会以block的形式存在HFile中。

索引相关更细节的东西可以看下这篇 HBase篇(4)-你不知道的HFile
HBase篇(4)-你不知道的HFile

另外可以提一下，因为HBase是多版本共存的，所以结果可能是会有多个的，因此检索的过程不是找到一个就返回了，而是要找到所有的，然后将结果合并。

HBase的各个角色之间是怎么协调工作的？

先说说Hbase主要包含的角色: HMaster/HRegionServer/Zookeeper

1. HRegionServer

负责实际数据的读写. 当访问数据时, 客户端最终会直接与 RegionServer 通信。 HBase的表根据Row Key的区域分成多个Region, 一个Region包含这这个区域内所有数据. 而Region server负责管理多个Region, 负责在这个Region server上的所有region的读写操作.

2. HMaster

负责管理Region的位置, DDL(新增和删除表结构)；
协调 RegionServer，在集群处于数据恢复或者动态调整负载时,分配Region到某一个 RegionServer 中；
管控集群,监控所有 Region Server 的状态；
提供DDL相关的API, 新建(create),删除(delete)和更新(update)表结构；

3. Zookeeper

负责维护和记录整个Hbase集群的状态。

zookeeper探测和记录Hbase集群中服务器的状态信息.如果zookeeper发现服务器宕机,它会通知Hbase的master节点。 master 节点宕机，则会通知 backup 变成 master。

说说 HBase 的 LSM Tre e？

LSM Tree即是日志结构合并树。

先说日志结构：

日志的特点是它是顺序追加写的，可以保证非常好的写操作性能，但是从日志文件中读一些数据将会比写操作需要更多的时间，需要倒序扫描，直接找到所需的内容。

LSM tree是通过把随机写的数据写到内存，然后定期flush到磁盘，对于磁盘来说，让所有的操作顺序化，而不是随机读写。

再说说合并树：

LSM Tree的原理是把一棵大树拆分成N棵小树，它首先写入内存中即是小树，随着小树越来越大，会flush到磁盘中，磁盘中的树定期可以做merge操作，合并成一棵大树，以优化读性能。

About The Author

maynard

懒散，不想无聊

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

1. 缓存

2. 过滤

3. 索引

Related Posts

About The Author

maynard