WTable数据导入Hive三步曲

2016 年 4 月 1 日

背景

五月份招聘企业团队开发了企业字典项目。基于对业务场景的分析，存储选型中采用了WTable。项目开发完毕后核心表数据大约有1.8亿左右，为了满足产品、运营同学对企业字典数据的盘点、运营需求，需要建立多张字典Hive表，将字典数据导入Hive表用于统计分析。

目前通过58dp平台可较为方便的对源自mysql或hdfs日志导入Hive表，可是WTable如何导入Hive还没有直接方式。几番打探后没有找到可拿来参考的案例，已知的WTable导入Hive是通过冗余的mysql表来实现，虽然这个实现比较简单，可是多申请与使用了一个mysql，不仅没有节约存储资源，反而多了一个WTable 与mysql数据一致性的问题。于是决定摸索一条WTable直接导入Hive表之路。

三步骤

通过实践后WTable直接导入Hive表可行，主要分为如下三个步骤：

执行WTable Dump服务
运行MR任务解压缩
执行Hive脚本添加表分区

以企业字典1.8亿数据为例：

WTable dump服务运行至输出压缩的hdfs文件大约耗时45分钟–2个小时，如下是最近两次不同时间段运行的起始时间与结束时间

自定义MR解压输出任务耗时，1–3小时不等时间跳动范围比较大

解压后文件大小

Hive表数据总量

基于现有条件导入Hive表，其处理过程重点在于mr任务，如何解压WTable dump的压缩数据，并输出既定格式的hdfs文件。

详细过程

WTable Dump

WTable除了dump接口外，还提供了dump服务，它可以将数据按照特定的格式保存到hdfs中。使用dump服务的基本流程为：发送dump请求。dump服务提供的接口使用http协议。详见文末参考资料：WTable Dump服务。

自定义MR任务

多数同学对基于文本的MR处理比较熟悉，可是为了实现对WTable dump出来的文件解压缩，其关键点在于实现自定义输入格式，非对文本数据的处理。

处理原则：

1.由于dump文件属于特定的压缩格式，因此不可对压缩文件分割处理

2.实现自定义输入，运行解压缩算法，对数据还原且按照指定格式输出

Main入口类

代码解读：

WTBFileInputFormat

isSplitable 须返回fasle，由于输入文件是特定的压缩格式，因此需要指定输入文件不可合并处理

createRecordReader 需要实现读取压缩文件方法，这里需要继承且实现RecordReader类的方法

WTBFileReader extends RecordReader

NullWritable, BytesWritable

由于主要处理的是特定压缩文件格式的内容，所以这里把输出Key指定为NullWritable类型，Value指定为BytesWritable类型，这是为了便于之后对压缩数据解压缩处理；其中箭头是重点需要关注的部分，nextKeyValue 虽然该方法调用一次即可以处理完整个压缩文件，实际中直接返回false后，导致后续mapper也不再调用；BytesWritable 返回值一定要重新实例化，不能使用set此方法将导致数组长度发生变化，之后解压缩导致数据错误，务必确保数组长度一定与读取压缩文件完全一致。

BytesWritable的set方法实现：