百度开源两款句法分析应用工具,提升文本处理任务效果
工具一:基于句法分析的隐式向量表示工具
常用的句子表示模型(如序列表示模型LSTM)基于顺序上下文给出当前词的表示,其会受限于词之间的距离,对长距离上下文依赖变弱。句法分析从语法结构上给出当前词依赖的上下文,尤其可给出长距离依赖的上下文,其弥补常用句子表示模型的不足之处。
本次发布的基于句法分析的隐式向量表示工具将句法信息编码进隐式向量表示中。如图2中“基于句法树的图注意网络”所示,本文将依存句法分析树看作一个有向无环图,在该图上应用基于图的注意力网络机制获取包含句法信息的表示。该向量表示与基于序列模型得到的向量表示连接在一起作为输入文本最终的向量表示,增强了输入文本的表示能力。其在下游任务中的使用方式见图2。
图2 基于句法分析的隐式向量表示及应用示意图
本工具应用于 事件抽取、相似度计算 任务,基于句法分析的隐式向量表示带来了显著效果提升。具体指标见表1。
表1 句法信息
在事件抽取和相似度计算任务上的表现
在事件抽取任务上,为了更好地说明句法分析的作用,表2给出相关实例。由此可见,引入句法信息后,模型能够学习到触发词与相关角色的句法路径,进而提升了角色识别的召回率。
表2 实例展示:句法信息引入事件抽取任务
在相似度计算任务上,引入句法信息主要解决字面重合度高,但结构相同/不相同导致的语义一致/不一致的数据的计算问题,具体实例见表3。
表3 实例展示:句法分析引入相似度计算任务
工具二:基于句法分析的显式结构表示工具
句法结构依赖于句子表述方式,语义同义但表述形式不同的两个句子其句法结构往往差异较大。如图3中实例所示,语义单元“纳达尔击败梅德韦杰夫”在3种不同的表述形式下对应3种不同的句法结构。
图3 “纳达尔击败梅德韦杰夫”三种不同表述形式对应的句法分析结构
为了方便开发者更直接地获取输入文本中的结构化语义单元,本文研发了基于句法分析的显式结构表示工具,其从文本表达的语义角度出发,直接提取文本中的主要内容并以结构化形式输出。如图4所示,输入文本为“9月9日上午纳达尔在亚瑟·阿什球场击败俄罗斯球员梅德韦杰夫”,本工具抽取出主谓宾结构(纳达尔、击败、梅德韦杰夫)、名词修饰结构(俄罗斯、球员)等。
本工具围绕实体词定义了7种常见结构,覆盖了句法分析可表示的范围,如主谓宾结构、动补结构、名词修饰结构等。
图4 显式结构表示工具输出示例
本工具有多种应用场景。这里将介绍3种应用场景,如图5所示。
图5 显式结构表示工具应用场景
-
开放域信 息获取 :基于抽取的语义结构单元,获得开放域信息,协助构建开放语义知识库;
-
相似度计算:基于抽取的语义结构单元,获取基于结构的匹配度,可作为特征加入到现有相似度计算模型;
-
数据增广:基于给定的结构,可生成不同表述形式、不同限定条件的数据,用于增广现有数据集。