MASTER：全局上下文建模大幅提高文本识别精度

2013 年 4 月 28 日

我爱计算机视觉标星，更快获取CVML新技术

今天跟大家分享一篇昨天新出的场景文本识别方法MASTER，其发明了一种Multi-Aspect 全局上下文建模方法，有效改进了文本识别精度，在多个数据集上取得了目前最好的精度，是最近最值得读的文本识别方面的论文。

该文作者信息：

作者单位为来自国内的平安产险视觉团队和徐州医科大学。

现实中出现的规则和不规则文本示例：

该文指出，目前基于注意力机制的自然场景文字识别方法在OCR领域取得了很大成果，成功的主要原因是在RNN的框架下，基于注意力的方法可以学习到一维或者二维特征的内在表示。

但是这种基于这种局部注意力机制的方法却存在注意力漂移的问题，并且在RNN架构下模型无法高效的并行计算。

作者正是想在文本识别中引入全局注意力机制。

为了提高模型性能和缓解注意力混淆问题，本文作者（平安产险视觉团队）等人提出了一个更高效和更鲁棒的场景文本识别方法：MASTER。

MASTER包括两个核心模块：

（1）基于Multi-Aspect的全局上下文注意力机制的编码器；

（2）基于Transformer的解码器。

今年一种全局注意力模型GCNet被提出：

Y. Cao, J. Xu, S. Lin, F. Wei, and H. Hu, “GCNet: Non-local networks meet squeeze-excitation networks and beyond,” ArXiv, vol. abs/1904.11492, 2019.

其全局上下文建模模块如下：

其主要分为Context Modeling 和 Transform 两大部分，并将原始特征图与Transform输出结果融合。

该文将其用于场景文本识别的注意力建模，发现如果使用多个注意力函数，可以取得更好的结果：

其核心模块如下：

可见，创新之处在于其含有h个Context Modeling。

在解码器部分也有多处改进，主要有：

Scaled Multi-Head Dot-Product Attention
Masked Multi-Head Attention
Position-wise Feed-Forward Networn
Loss Function

MASTER架构图：（请点击查看大图）

实验结果

作者在常见评价数据集上与State-of-the-art方法进行了比较：

在 7 个数据集上有 4 个取得了当前最高的精度。

（另外3个是52CV曾经向大家重点介绍过的Mask TextSpotter：

华科白翔老师团队ECCV2018 OCR论文：Mask TextSpotter ）

下表是在 COCO-text test 数据集上的结果：

可见MASTER在不区分大小写赛道取得了当前第一名的结果，并大幅超越第二名，在区分大小写赛道取得准确率指标第四的好成绩。

作者总结称MASTER方法具有如下优势：

（ 1）模型能够更好的学习输入和输出之间的对齐关系，并且能够在编码器内部学习特征与特征之间的依赖关系，在解码器内部学习目标与目标之间的依赖关系，缓解了注意力混淆问题；

（2）模型在公开的基准数据集上取得了SOTA水平，尤其在不规则文本数据集上刷新了准确率，表明其对图片的空间形变不敏感；

（3）训练和预测阶段使用了并行计算，更加高效。

目前还未发现该文有开源代码，不过作者在论文中详细列出了关键模块的配置和 PyTorch 实现，应该比较容易复现。

论文地址：

https://arxiv.org/pdf/1910.02562.pdf

在我爱计算机视觉公众号对话界面回复“ MASTER ”（建议复制），即可收到论文下载。

OCR交流群

OCR交流群是52CV最活跃的技术交流群之一，关注文本检测、识别、风格化相关技术，聚集了大量学术界和产业界的朋友，扫码添加CV君拉你入群，（如已为CV君其他账号好友请直接私信）

（请务必注明：OCR ）

喜欢在QQ交流的童鞋，可以加52CV官方 QQ群 ： 805388940 。

（不会时时在线，如果没能及时通过验证还请见谅）

长按关注我爱计算机视觉

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

演道网

MASTER：全局上下文建模大幅提高文本识别精度

实验结果

OCR交流群

About The Author

hellowo

实验结果

OCR交流群

Related Posts

About The Author

hellowo