SIGIR 2019 | 基于人类阅读行为模式的机器阅读理解

作者丨张琨

学校丨中国科学技术大学博士生

研究方向丨 自然语言处理

论文动机

机器阅读理解一直是自然语言处理领域的一个非常重要的研究方向,目前虽然在一些给定条件下,机器学习的方法可以取得和人类类似甚至好于人类的效果,但在实际的阅读条件下,两者之间还存在比较大的差异。人类的阅读习惯在一定程度上仍对机器阅读理解模型有启发作用。

基于这样的一个出发点, 本文的作者通过收集眼动数据对人类的阅读行为模式进行分析,并尝试通过回答以下三个问题对人类的阅读行为模式进行分析:

1. 在阅读理解任务中,人类是如何阅读和寻找答案的?

2. 在阅读理解任务中,什么因素影响着人类的注意力分配机制?

3. 人类的阅读行为是否有助于提高机器学习模型在阅读理解任务上的表现?

用户研究分析

为了回答以上问题,对用户行为进行详细分析,本文首先对用户进行了相关研究,整体的数据手机过程如下图所示:

首先,作者将阅读理解数据集中的问题根据类型分为不同的类型,每个任务集包含 15 个问题,涵盖 Description, Entity and Yesno (5 questions for each), cover both Fact (8 questions) ,and Opinion (7 questions) categories,然后每个参与者经过培训之后,独立回答这些问题,如上图所示,每个用户回答问题需要经过一下四个阶段:

1. 首先看到一个问题,在阅读完问题之后,他们被要求复写问题,并对问题进行评价(预先定义的 5 个评价标准);

2. 阅读对应文档,并在文档中找到最适合的答案,在该过程中用户不能再看到问题;

3. 写出对应的答案,答案需要精准,并且来自文档或者被文档中的片段支持,该过程不能引入用户自己的先验知识;

4. 再次提供问题和文档,用户需要标注出答案对应的证据,同时还需要标注出每个证据的有用程度(预先定义)如果文档中没有答案,则不需要标出任何内容。

在 1,2 阶段,作者还通过眼动仪来收集用户的注意力分配信息数据,通过这些方法,作者就收集到了用户在阅读理解中的行为数据,并通过对这些数据的分析回答之前提出的三个问题。

问题1:在阅读理解任务中,人类是如何阅读和寻找答案的?

上图展示了人类在阅读过程中的注意力分配,从这个图中可以看出,无论文档中是否有答案,用户更习惯于从头到尾进行阅读。之前已有研究表明了人类的阅读行为包含三类:down,up 和 skip,down 就是顺序阅读,up就是往回读,skip就是跳过一些内容读。作者也对用户的这三种行为进行了分析:

从上图中可以看出,用户更倾向于在刚开始阅读时按顺序阅读,在之后的阅读中跳过不重要的内容,只关注最重要的内容。同时在上图中的 c 中可以看出,用户会花费更多的时间在用候选答案的部分,更少的关注没有答案的文本。当文档中包含答案时,可以看到 up 和 skip 的行为会更常见,也就是用户需要对答案进行验证。但当文档中没有答案时,只有 down 的行为会增加。

问题2:在阅读理解任务中,什么因素影响着人类的注意力分配机制?

为了回答该问题,作者分别对影响用户行为的四种主要因素进行了分析:答案,位置,词的类别和匹配信号。

从这个表中可以看出,用户会更倾向于关注包含答案的内容,而在不包含答案的部分,用户的关注时间都相对比较短。

该图展示了答案词出现的位置对用户造成的影响,可以看出,答案更多的出现的文章的前部。对不存在答案的文档,可以看出用户的关注在文档前 80% 变动并不大,而在文档结尾有比较大的下降。而当文档中有答案时,可以看出注意力的分布和答案在文档中的分布是类似的,也就是答案最终影响了用户的关注位置。

词的属性上,作者通过研究 IDF 和词性进行了相关的分析,可以看出1)一个词的 IDF 越大,受到的关注度越大,因为 IDF 越大,这个词出现的频率阅读,说明用户更关注那些不常见的词;2)在用户的阅读过程中,用户更关注名词,主要是名词包含了更有用的信息。

在匹配信号中可以看出,那些和问题语义相似度更高的词会收获更多的用户关注。

问题3:人类的阅读行为是否有助于提高机器学习模型在阅读理解任务上的表现?

在该问题中,作者提出了一种两阶段的模型,在第一阶段搜索可能的答案,在第二阶段通过比较和验证生成最后的答案,具体模型效果如下图所示:

总结

本文针对用户的阅读行为模式进行了详细分析,通过具体的行为数据解释了用户的复杂阅读习惯,这其中还是有很多值得我们借鉴的,由于本文主要针对用户的阅读行为进行分析,因此相关的模型部分相对少。但文中总结出的相关内容信息还是有很多可以学习的,还是很有意思的。