NIF:一种量化神经网络信息流的框架

这篇论文提出了一种解释深度学习模型的新方法。更确切地说,通过将互信息与网络科学相结合,探索信息是如何通过前馈神经网络流动的。虽然现有的可解释性技术阐明了哪些输入特征对模型的预测起到重要的影响,但是现有技术仍然无法从神经元这个级别量化深度网络中的信息流。这仍然不能解决深度学习中最基本的问题之一:在深层网络模型中,从输入特征到每个中间隐藏层神经元有多少信息流动?

这篇论文通过计算互信息,创建一个信息度量量化深度学习模型的任何两个神经元之间的信息流量。提出了一种用于编码信息流的新度量,神经信息流 ( Neural Information Flow,以下简称NIF),其在提供特征归因的同时揭露深度学习模型的内部原理。具体的是通过连续层中神经元之间的神经信息流NIF对信息流进行建模,以揭示深度学习模型如何学习其输入特征的复杂函数。

NIF可以量化神经网络中不同节点之间的信息流动,为了更好的观察,引入网络科学中社区结构和中介中心性的概念。图一展示了在神经网络上运用NIF的效果,左边黑色节点的网络是传统的多层感知机网络,右图是经NIF处理后可视化的网络。不同颜色的节点代表网络科学中不同的社区(通过网络科学中的社区结构计算得到),节点的大小对应节点的中介中心性(通过网络科学的中介中心性得到)。节点之间箭头越粗,代表信息流动越大(信息流动通过NIF来量化)。

通过NIF和网络科学的结合,不仅可以看出哪些输入特征对模型的预测产生了影响,还可以很容易的看出输入特征和隐层之间信息流动的大小,同时从输入到输出的决策路径也非常清楚,例如对于输出的最下面的维度,前一层的从上往下数第1,2,4节点对它影响较大,同时第3,5节点几乎没有影响。

图一:传统网络和 NIF 网络

NIF通过互信息的方式来量化神经元之间的信息流动,但是计算互信息一直以来都是一个很难的问题,现有的计算方法只能针对离散随机变量才能有效地精确计算互信息,在连续随机变量情况的时候,只能在限定场景下(如依赖高斯分布近似)才能计算,一般情况下很难计算。为了计算互信息,这篇论文引入<>提出的MINE方法[1]。MINE方法可以使用神经网络梯度下降算法对高维度连续随机变量间的互信息进行估计。

互信息可以用来描述随机变量之间的信息相关度,互信息越大,变量之间的相关度越强,如图二所示:

图二

其中X,Z为两个不同的随机变量,H(X)代表事件X的熵,熵是刻画信息不确定性的一种度量指标,若不确定性越高,熵越大,信息量越大。

是条件熵,由图可知互信息I(X,Z)满足:

(1)

因为X,Z为两个随机变量,所以X和Z有对应地概率分布,令 是X和Z联合概率分布, 与 是边缘概率分布,现有工作表明也可以在分布的角度刻画互信息。如下定义所示:

(2)

互信息用于捕捉变量之间的统计独立性。一个很直观的理解是当X和Z独立时,P(XZ)=P(X)P(Z),此时I(X,Z)为0。倘若X和Z不独立,则联合分布的概率P(XZ)大于边缘分布的乘积P(X)P(Z),此时互信息不为0。

由于条件熵和联合熵满足,则(1)式可推得:

即:

(3)

其中, 散度表示两个分布之间的距离,距离越远,散度越大。 定义如下:

(4)

为了计算互信息,MINE引入Donsker-Varadhan提出的 KL 散度的对偶表示, 如下式所示:

(5)

其中T是使得上述两个期望值有限的任意函数,sup是指上界,取满足上述限制条件的函数集的一部分子集 ,由于子集的关系我们取得的 不一定包含上界,因此我们可以得到下式:

(6)

观察上式,直观上有个很难理解的地方,就是P和Q的KL散度几乎依赖于一个和P,Q无关的任意的函数。由上式可知,对任意的函数T,不等式成立。根据MINE论文的推导可知函数T必须满足:

其中C为常数,等式才能成立。当T与P,Q无关时,只能取到不等式,而且可能差很远。这很符合神经网络的特性,初始情况下神经网络的效果可能也很差,但是可以通过优化的方法逐步逼近最优解由此启发我们可以通过将T函数看作为神经网络,通过优化神经网络来逼近互信息的值不仅如此,根据万有逼近定理,神经网络可以拟合任意的函数,且神经网络的表达能力保证了它们能以任意精度逼近互信息。将函数T看成参数化的神经网络, ,因此可以根据公式(7)来拟合 X 和 Z 的互信息。

(7)

尽管神经网络拟合的是一个连续的函数,但是训练的时候,数据只能采用离散的数据样本进行训练,故用采样的方法来代替,当采 n 个样本时,公式(7)可转化为公式(8)表示连续的函数可以用离散的采样来拟合:

(8)

综上,MINE提出了一种用梯度下降的方法去估计连续型分布互信息的方法,完整的算法流程如下:

算法首先随机初始化一个神经网络,然后对联合分布XZ以及边缘分布Z进行采样,算法首先随机初始化一个神经网络,然后对联合分布XZ以及边缘分布Z进行采样,并用采样的数据和作为神经网络的输入,得到的输出并带入公式(8)计算随机变量 X 和 Z 的互信息。一开始,因为的参数是随机初始化的,因此的输出离最优的 T 函数有较大的差距,但通过梯度反向传播算法,逐步更新,就可以逐步逼近最优的T函数,从而根据公式(6)将逼近最优的 KL 散度,即 X 和 Z 的互信息。

MINE 方法可以以下界逼近的方式计算两个分布的互信息,但是在神经网络中,由于输入的各个维度特征具有相关性,而 MINE 方法中计算互信息考虑的随机变量 X 和 Z 是独立的,因此不能直接用 MINE 方法计算各个输入特征维度Xi和神经网络各神经元  Q k 的互信息,因为 X i X j 之间存在相关性。NIF 在 MINE 的基础上作了改进,如下所示:

(9)

其中 代表输入的某一维特征 , Q k 代表某个隐藏层神经元。通过(9)式的计算方法,NIF 计算互信息时,不仅包含了输入特征和隐层的关系,也加入了特征之间的相关性,参数 控制的是特征之间的互信息的影响大小。

实验

如图一所示,在NIF的工作中,除了互信息还用到了网络科学中的几个概念。

1、中介中心度 (Betweenness Centrality):计算经过一个点的最短路径的数量。经过一个点的最短路径的数量越多,就说明它的中介中心度越高。

2、社区结构 (Community Structure):网络中的社区指的是一组紧密连接的节点。直观地,一组节点可以定义为一个社区,如果该组节点之间的连接数远多于随机连接的数量。

实验一将 NIF 可视化使用 ReLU 激活并通过 ADAM 优化的 Iris 数据集进行训练的单层感知器 。很明显,在一个隐藏层中的五个隐藏神经元中,只有三个是模型最终预测的核心。这些结果很直观且有意义,因为那些节点上的 ReLU 激活为零(参见图三(b)):因此,可以推断 ReLU 有效地抑制了流经网络的信息。此外,图三(b)证实了节点 3 和 5 处的激活分布为零,因此在NIF模型中没有连接。

图三

实验二对 Banknote 数据集执行类似的分析,结果如图四所示。可以看到从第一特征到隐藏层节点五的强大信息传播,以至于两个节点都属于他们自己的社区。利用图四(b)中的激活分布,证实了所有中心节点对模型预测的同等重要性。

图四

为了显示NIF在大网络上的推广能力,实验三在Banknote数据集上训练了一个带有ReLU激活的双层网络。如图五所示,我们发现每层两个节点为零,这意味着由于使用ReLU激活,存在固有地被抑制的信息路径。

图五

为了验证 NIF 的度量的有效性,文中还作了两个验证实验

1、删掉 NIF 认为没有信息流动的节点(即把节点权重全部置位0),并没有出现精度下降的情况。

2、为了验证 NIF 的量化效果,计算输入特征 X i 对输出 Y i 的影响,计算公式如下所示:

其中,P是神经信息流网络中从输入 X i 到类 Y j 的所有有向路径的集合,L是每条路径上的链路集。

将 NIF 与当前特征归因技术 SHAP[2]和综合梯度[3]进行比较。使用两个样本 Kolmogorov-Smirnov 检验两个经验分布之间的拟合优度,发现NIF超过了当前的基准,这意味着 NIF 可能来自与输入和输出类之间的原始互信息相同的分布。这证明 NIF 方法是可行的。

作者简介

蔡佳文:中南大学硕士生二年级,研究方法是基于图神经网络的算法设计。

参考文献

1、Belghazi, M. I.; Baratin, A.; Rajeshwar, S.; Ozair, S.; Bengio, Y.;Courville, A.; and Hjelm, D. 2018. Mutual information neural estimation. In Proc. ICML, volume 80, 531–540. PMLR.

2、Lundberg, S. M., and Lee, S.-I. 2017. A unified approach to interpreting model predictions. In Advances in Neural Information Processing Systems 30. 4765–4774.

3、Sundararajan, M.; Taly, A.; and Yan, Q. 2017. Axiomatic attribution for deep networks. In Proc. ICML, volume 70, 3319–3328. PMLR.