探索无限大的神经网络

NTK 和之前提出的核的关键区别在于,NTK 是由网络的输出相对于网络参数的梯度之间的内乘积来定义的;其中的梯度来自训练网络时使用的梯度下降算法。概括地说,对于一个梯度下降训练出的足够宽的深度神经网络,下面这个结论是成立的:

一个正确地随机初始化的、 足够宽的 、由具有无穷小步长大小(也就是梯度流 gradient flow)的 梯度下降训练 的深度神经网络,和一个带有 NTK 的 确定性核回归预测器是等效 的。

这个结论在 Jacot 等最初的论文(https://arxiv.org/abs/1806.07572)中就基本确立了,不过他们要求网络的各个层依次趋近于无限大。在 Sanjeev Arora, Zhiyuan Li, Ruslan Salakhutdinov and Ruosong Wang 等人最新的论文(https://arxiv.org/abs/1904.11955)中,他们把这个结果做了进一步的改进,让它对非对称环境也适用,也就是每层的宽度不用依次变大,只需要都高过某个有限的阈值就可以。

NTK 是如何出现的?

详细的推导过程在论文(https://arxiv.org/abs/1904.11955)中有介绍,这里我们只简单提一下。作者们在标准的有监督学习环境下考虑这个问题,通过最小化训练数据上的二次方损失的方式训练神经网络。经过一系列推导,作者们得到了含有网络梯度项的核矩阵的表达式。

不过到这里为止作者们还没有使用「网络非常宽」的这个条件。当网络足够宽时,他们推导的核可以逼近某个确定性的固定核,也就是前面提到的 neural tangent kernel(NTK,神经正切核)。不过,确定「到底多宽才是足够宽」需要一些假设和技巧,在这篇论文中作者们最终得到的是只要网络的每一层的宽度各自大于某个阈值就可以,要比更早的结果中要求每一层宽度逐渐更趋近于无穷大的限制更弱一些。

最终作者们推导出训练后的无限宽神经网络和 NTK 是等效的。详细的推导过程请见论文原文。

无限宽的神经网络实际表现如何?

在证明了无限宽的神经网络和 NTK 等效之后,我们就有机会实际看看无限宽的神经网络的表现 —— 只要测试对应的使用 NTK 的核回归预测器就可以了!作者们在标准的图像分类测试集 CIFAR-10 上进行了测试。由于这是基于图像的任务,想要得到好的结果一定少不了卷积结构的参与,所以作者们也推导了卷积 NTK,并和标准的卷积网络进行对比。分类准确率对比如下: