推出 LIT:NLP 模型的交互式探索和分析

文 / James Wexler,软件开发者和Ian Tenney,软件工程师,Google Research

随着自然语言处理 (NLP) 模型的越发强大,并被部署于越来越多的真实世界环境,对其行为的理解也变得更加重要。虽然模型的发展为大量 NLP 任务带来了空前的性能提升,但许多研究问题仍然存在。这些问题不仅涉及模型在领域转移和对抗环境下的行为,还涉及其在社会偏见或浅层启发法影响下的行为倾向。

任何新模型都可能引起这样的疑问:模型在哪些情况下表现不佳?模型为什么会做出某种预测?或者,在文本样式或代词性别等不同输入发生变化后,模型是否具有一致的行为?然而,尽管最近有关模型理解和评估的研究呈爆炸式增长,却还是没有用于分析的“灵丹妙药”。

从业者必须经常测试大量技术,研究局部解释,汇总指标和输入的 反事实 (Counterfactual) 变化,才能更好地理解模型行为。而在这些技术中,通常每一种都需要特有的软件包或定制工具。我们先前发布的 What-If 工具 就是为了解决这一挑战而构建。它实现了分类和回归模型的黑盒探查,使研究人员可以更轻松地调试性能并通过互动和可视化来分析机器学习模型的公平性。 但是我们仍需一种工具包来应对 NLP 模型的特有挑战。

  • What-If 工具 https://ai.googleblog.com/2018/09/the-what-if-tool-code-free-probing-of.html

考虑到这些挑战,我们构建并 开源 了用于 NLP 模型理解的互动平台 Language Interpretability Tool (LIT)。LIT 以 What-If 工具 的经验为基础,对功能进行了大幅扩展,涵盖了广泛的 NLP 任务,包括序列生成、跨度标记、分类和回归,以及可自定义和可扩展的可视化效果和模型分析。

  • 开源


    https://github.com/PAIR-code/lit/

  • Language Interpretability Tool


    http://pair-code.github.io/lit

  • What-If 工具


    https://whatif-tool.dev

LIT 支持局部解释,包括 显著图 、注意力和模型预测的丰富可视化效果,以及包括指标、嵌入向量空间和灵活分片在内的汇总分析。它允许用户在可视化效果之间轻松切换,以测试局部假设并在数据集上进行验证。LIT 为反事实生成提供支持,其能够即时添加新的数据点,并将其对模型的影响立即可视化。并行比较允许同时可视化两个模型或两个单独的数据点。有关 LIT 的更多详细信息,请参阅我们在 EMNLP 2020 发表的系统演示 论文  (https://arxiv.org/abs/2008.05122)