机器学习教你学习语言:Duolingo推出CEFR语言检测器

「对!——我神经过敏,非常,非常过敏,十二万分过敏,过去是这样,现在也是这样;可您干吗偏偏说人家疯了呢?犯了这种病,感觉倒没失灵,倒没迟钝,反而敏锐了。尤其是听觉,分外灵敏。天上人间的一切声息全都听见。阴曹地府的种种声音也在耳边。那怎么是疯了呢?听!瞧我跟您谈这一切,有多精神,有多镇静」。

这是埃德加·爱伦·坡(Edgar Allan Poe)小说《泄密的心》(The Tell-Tale Heart)中一个神经过敏的角色的内心独白,它以一种让人仿佛身临其境的感觉开头,吸引了广大的读者,也为我们提供了向「多邻国」(Duolingo)语言学习故事的读者展示的引人入胜的素材。但是对我们的学习者来说,英语常常是他们的第二语言,因此我们努力将这种材料改编成更简单的形式,同时又保留其核心内容。例如,我们可以将以上段落重写为以下文字,以供英语初学者阅读学习:

「对!——我神经过敏,但我疯了吗?犯了这种病,听觉感觉反而敏锐了。天堂人间地狱的一切声息都可听见。那怎么是疯了呢?听!我能跟您谈论这一切」。

这项文本改编任务对我们来说是一个艰巨的挑战,即如何有效地为各个阶段的学习者生成可学内容——不仅是我们的语言学习故事,还包括播客和「多邻国」产品的其它功能。因此,我们构建了半自动的机器学习系统,以帮助我们针对于不同的语言熟悉程度进行的内容创建过程(根据 CEFR 标准进行衡量)。值得一提的是,我们已构建了 CEFR 检测器(Checker)来帮助实现语言转换,并且检查跨语言的内容是否适合初学者、中级学习者和高级学习者。在这里,我们也会将这个工具提供给语言教育者和公众!下面将详细介绍其用途和使用方法。

CEFR 和 CEFR 检测器

欧洲语言共同参考框架(Common European Framework of Reference,CEFR)是一种语言熟练程度标准,根据学习者的语言能力将其分为初学者、中级学习者和高级学习者。这些级别通常被细分为 A1、A2、B1、B2、C1 和 C2,与上图所示的不同熟练程度相对应。根据「Can do…」的句式等评估学习者在听力、阅读、写作和口语交际能力方面的水平。这些语句的范围从「可以理解并做出基本的问候」(初学者水平)一直到「可以写出关于复杂主题的结构良好的详细文本」(高级水平)。

有了 CEFR 标准,我们可以将改写任务视为:将一段中级学习者(例如 B1)可以理解的文本修改为内容相同的文本,同时初学者(例如 A1 或 A2)可以理解这段修改后的文本。有时,我们甚至需要把 A2 级别的文本改写为 A1!这通常需要将语言的词汇、语法或习惯用语以及与文化相关的各个方面简化为不同级别的学习者更容易理解的形式。我们的 CEFR 检测器通过评估 CEFR 等级来辅助此过程,检测器将测试学习者可以在哪个 CEFR 等级下,理解改编文本中的每个单词。例如,下面的截图展示了该工具如何将原始爱伦·坡原文的一些单词评估为 C1 或 C2 级别(红色高亮表示),并在简化文本中将最高级的单词(「nervous」)评估为 B1 级别(橙色高亮表示)。

该工具提供了数十万个英语、西班牙语、法语、意大利语、德语和葡萄牙语单词的 CEFR 评估值,我们今天将发布其中两种语言(英语和西班牙语)的公开版本!通过利用下文描述的人工智能机器学习模型,我们可以提供海量的词汇表和多种语言的评估值。

人工智能的部分

CEFR 检测器中的彩色文本可视化结果取决于多种语言中成千上万个单词的 CEFR 等级——如果我们的课程专家进行手工标记,成本将极其高昂、令人抓狂。我们通过使用数千个人工标注的 CEFR 英语、西班牙语和法语单词标签训练一个机器学习系统,并使该模型可以泛化到许多其它语言的数十万个单词上,最终降低了成本。这种有序回归学习模型将考虑一个单词及其源语言,并预测该单词的目标学习者的 CEFR 等级(A1、A2、B1、B2 或 C)。

我们使用迁移学习和领域自适应技术,同时依靠与语言无关的特征将模型泛化到新的语言上。也就是说,模型中的特征包括多语言单词嵌入(MWE)和通过电影字幕估计的单词语料库频率。MWE 将单词映射到一个 300 维的空间中,在这个空间中,出现在多语言的语料库中的相似特征和语义上下文中的单词会距离较近,从而提供了语言无关的单词「含义」的表征,简化后的三维空间如图所示

CEFR 往往要求依赖于某些主题下的语义信息的交际能力(例如,一个人是否可以在涉及问候、个人生活、食物、家庭的「日常」环境中进行交互),因此这些 MWE 和语料库频率直观上看是符合客观事实的。此外,我们还希望可以做这样的安排:让学习者先学习常见的语言形式,然后学习不常用的语言形式。

为什么要使用人工智能技术呢?为什么不简单地将 CEFR 英语单词表翻译成其他语言呢?不妨设想一下,在英语环境中,我们说「I am hungry」,而西班牙语中会说「tengo hambre」(字面意思是「我饿了」)。这两种表达都是 A1 级。但是,如果将这些表达形式逐字地翻译为另一种语言,则最终会得到西班牙语形容词 hambriento(对应英文「hungry」)或英语名词「hunger」(对应西班牙语「hambre」),它们实际上都是 B1 级单词。除此之外,语言之间惯用语表达的不匹配使我们很难简单地翻译单词表。我们发现,我们对词频和语义建模的方法可以帮助我们做得更好。

结语

CEFR 检测器是我们目标语言多样、熟练程度不同的学习者改写文本内容的过程中的一个关键部分。我们希望它的发布能对其它课程开发人员构建「多邻国」以外的语言学习资源有所帮助,并希望它的存在能进一步促进 NLP 和机器学习研究,从而催生更多增强类似工具的应用程序。

参考链接: https://cefr.duolingo.com

https://making.duolingo.com/the-duolingo-cefr-checker-an-ai-tool-for-adapting-learning-content