漫画翻译、嵌字 AI,东京大学论文被 AAAI’21 收录

第一步 定位文字 

在实现漫画自动化翻译的第一步,就是提取文字区域。

但由于漫画的特殊性,来自不同角色的对话、效果拟声词、文字标注等等,都会展现在一幅漫画图片里,漫画师会用气泡、不同的字体、夸张的字体来展现不同效果的文字。

漫画中的手绘、异形文字的识别成为了难点

研究团队发现,由于漫画中的这些各种字体和手绘样式,即使使用最先进的OCR 系统(例如 Google Cloud Vision API),在漫画文本上的表现很不理想。

因此,团队开发了针对漫画优化的文本识别模块,通过检测文本行和识别每个文本行的字符来实现对异形文字的识别。

第二步 内容识别 

在漫画中,最常见的文字就是角色之间的对话,对话文字气泡还会被切割成多块。

这就要求自动化机器翻译需要准确区分角色,还得联系上下文注意主语的衔接、避免重复,这都对机器翻译提出了更高的要求。

点击放大查看场景分类、文本顺序和情感识别流程

在这一步中,要通过上下文感知、情感识别等方式来实现,在上下文感知中,Mantra 团队用了文本分组、文本阅读顺序、提取视觉语义三种方式,实现了多模态的上下文感知。

第三步 自动嵌字 

Mantra 这一自动化引擎,不仅能够区分角色、联系上下文准确翻译以外,还很好地解决了漫画翻译中的耗时最久、人力成本最高的环节——嵌字。

在嵌字这一环节中,首先要擦除嵌字区域,再进行嵌字,由于日文、中文、英文字符的形态、拼写、组合、连读方式都不一样,所以这一环节的难度也尤其大。

在这一步中,需要进行:页面匹配→检测文本框→文字气泡的像素统计→拆分连接的气泡→语言间的对齐→文字识别→上下文提取。

实验: 数据集与模型测试 

在论文中的实验部分,Mantra 团队提到目前并没有包含多种语言的漫画数据集,所以他们创建了 OpenMantra(已开源) 和 PubManga 数据集,其中 OpenMantra  用于评估机器翻译,包含 1593 个句子、848 个场景画面和 214 页漫画,Mantra 团队已经请专业翻译人员将数据集翻译成英文和中文。

OpenMantra 漫画翻译评估数据集

(同上文)

论文地址: https://arxiv.org/abs/2012.14271

数据格式: 带注释的 JSON 文件和原始图像

数据内容: 1593 个句子、848 个场景、214 页漫画

数据大小: 36.8 MB

更新时间: 2020 年 12 月 7 日

下载地址: https://hyper.ai/datasets/14137

PubManga   数据集用于评估构建的语料库,该数据集包含注释:1)文本和框架的边框;2)日语和英语的文本(字符序列);3)框架和文本的阅读顺序。

为了训练模型,团队准备了 842097 对日文、英文版的漫画页面,共 3979205 对日语-英语的句子。 具体的方法可以阅读论文,最终的模型效果评估由人工完成,Mantra 团队邀请了 五位专业的日文-英文翻译人员 ,以专业的翻译评估程序给句子打分。