这一次,脑机接口可以实时读取人类脑中画面了?

为了构建这一设备,神经生物学家需要理解大脑如何编码信息。其中一个关键方面是,研究人们在观看视频时感知视觉信息的大脑活动过程。

现有的解决方案是,要么使用功能磁共振成像来提取观察到的图像,要么通过植入物直接分析来自神经元的信号。两种方法在临床和日常生活中的应用都非常有限。

俄罗斯研究者开发的这种脑机接口依赖的是人工神经网络和脑电图(EEG),后者是一种可以通过非侵入式电极(无需手术植入)记录脑电波的技术。通过分析大脑活动,该系统可以实时重现人类看到的图像。

「我们正在进行国家技术计划(National Technology Initiative)神经网络辅助技术项目,该项目致力于构建一种脑机接口,让中风患者控制手臂外骨骼、瘫痪患者驾驶电动轮椅等,最终目标是让健康的人也能提高神经控制的准确率,」MIPT Neurorobotics 实验室负责人 Vladimir Konyshev 表示。

技术细节

该脑机接口的构建实验共分为两个阶段。

在第一阶段,神经生物学家让健康的人观看一些 10 秒的 YouTube 视频片段,总共 20 分钟。研究团队随机选择了 5 个视频类别:抽象形态、瀑布、人脸、移动的装置和汽车运动。

通过分析脑电图数据,研究者发现,每一类视频的脑电波是不同的。这使得研究小组能够实时分析大脑对于视频的反应。

在实验的第二阶段,研究者从五个类别中随机选择了三个类别并开发了一个本地反馈(native feedback)模型,反馈模型的核心思想是将脑机接口分类器的预测结果以自然图像的形式呈现出来,而且要尽可能与实际观察到的图像接近。

该模型分为两个神经网络:一个用于从「噪声」中生成随机特定类别图像,另一个根据脑电图生成类似的「噪声」。接下来,该团队训练这两个网络协同工作,将脑电图信号转换为与被试观看内容相似的实际图像。

论文中提到的本地反馈模型如下图所示。

图 2:本地反馈模型的总体方案。

将降维后得到的 20 维脑电图特征向量映射到预先训练好的图像自编码器的潜在空间中,这个自编码器能够重建几个预学习类别的自然图像。图像解码器不依赖于任何神经生理学数据,仅考虑一组刺激图像即可进行预训练。特征映射器是单独训练的,因为它既需要脑电图特征库,也需要一个训练好的图像解码器。

图像解码器

图像解码器(ID)是图像到图像卷积自编码器模型的一部分。编码器部分基于预训练的 VGG-11 模型。解码器部分由全连接输入层组成,用于维度增强,然后是 5 个解卷积块,每个解卷积块包含一个解卷积层,然后是 ReLU 激活。最后的解卷积块包含双曲正切激活层。解码器生成 192×192×3 维的彩色图像(见图 3a)。

图 3. 图像解码器.a)模型结构;b)常规训练

除了图像重建之外,解码器还有一个特定的潜在空间分布。他们通过引入一个图 3(b)所示的训练过程来解决这个问题。

脑电图特征映射器

脑电图特征映射器的目标是将脑电图特征域的数据转换成图像解码器潜在空间域。在理想状态下,观察到的图像和此时的脑电图记录最终会转换为同一个潜在空间矢量图,因此解码器能够根据刚才看到或想象的场景去生成一个正确的视觉图像。

另一个问题是如何应对嘈杂的数据:由于存在未检测到的伪像,或者被摄对象分散注意力,实时记录场景中的脑电图信号属性可能会发生显著变化。此时反馈系统应避免出现混乱的图像切换,以免给观察对象太多的压力。

人类脑中的图像是连续数据,所以使用循环神经网络就变得顺理成章了——新的算法使用了 LSTM 组件作为循环单元。此外,研究人员还整合了注意力机制。

图 4,脑电图特征映射。a)模型结构;b)训练方法。

测试结果

为了测试该系统呈现头脑活动的能力,研究者选了一些同一类的以前看过的视频。正如他们看到的那样,脑电图被记录下来,然后反馈给神经网络。系统通过了测试,生成了具有可信度的图像,90% 都可以很轻松地进行分类。

和大多数 AI 算法一样,研究人员提出的神经网络模型是用 Python 实现的,运行的计算机也只需普通台式机:英特尔 i7 处理器,英伟达 GeForce 1050Ti 显卡。在读取的过程中,算法可以处理每秒 3 帧图像。通常,在分类上约有 90% 的重建图像是可识别的程度。

「此外,我们可以把这个当作实时脑机接口的基础。在当前的技术条件下,Elon Musk 那样的侵入式接口存在手术性质复杂和快速退化的问题——基本上几个月内就失效了。我们希望可以最终设计出更实用也不需要植入的神经接口。」研究者补充道。