AAAI 2021 | 利用双流卷积增强的Transformer进行WiFi-based人体动作识别

2014 年 7 月 23 日

作者：新南威尔士大学博后研究员李冰

本文介绍一篇 AAAI 2021 论文： Two-Stream Convolution Augmented Transformer for Human Activity Recognition 。

在该项工作中， 新南威尔士大学 和 新加坡A*STAR研究院 的研究者提出，利用Transformer强大的特征建模能力，可以通过商用WiFi设备以“被动式”的方式识别人体动作，并且该方法可以达到SOTA的准确率 (>98.7%)。此外，由于可以被并行计算，其时间效率比当前主流的Sequential Model (如RNN，LSTM等) 快1.83~3.37倍。

更多详情，请参看论文原文：

论文、代码链接：

https://github.com/windofshadow/THAT

后台回复【 210208 】可直接下载论文PDF~

引言

人体动作识别 (Human activity recognition, HAR) 任务可以广泛应用于安全、监控、娱乐系统等领域。目前常见的HAR系统大多是Vision-based，其利用摄像头获得的视频信息进行动作识别 (如图1)。基于视觉的方法存在诸多限制，例如，会受限于视线传播 (Line-of-sight) 条件、需要照明、视线无障碍遮挡等，在夜间或大雾环境下会导致系统失效。更为重要的是，摄像头可能会收集用户照片等生物特征信息，存在严重的隐私泄露风险。

图1：基于摄像头的人体动作识别

新南威尔士大学和新加坡A*STAR研究院的研究者提出，利用Transformer强大的特征建模能力，可以通过商用WiFi设备以“被动式”的方式识别人体动作 (如图2)，并且该方法可以达到SOTA的准确率 (>98.7%) 。此外，由于可以被并行计算，其时间效率比当前主流的Sequential Model (如RNN，LSTM等) 快1.83~3.37倍。相关工作已发表于AAAI 2021。

图2：基于WiFi的人体动作识别

1. Introduction (研究动机及简介)

基于视觉信号的HAR是一种非常直观的策略，但是为什么WiFi信号这种“隐晦”的信息也可以被用来进行动作识别呢？研究者发现人体的不同动作会在信号发射端 (TX) 与接收端 (RX) 之间对信道状态信息 (CSI) 产生 “微妙“但又“独特”信号变化 (如图3)，这种特性又被称多径反射和折射 (multi-path reflections and refractions) 现象 [1]。

图3：基于CSI的人体动作识别

由于上述特征并不明显，传统信号特征提取技术如RF、HMM在WiFi环境下进行动作识别效果并不显著。目前，Transformer 模型[2]在自然语言处理任务上展现出了强大的特征学习能力。受此启发，研究者考虑如何在WiFi数据上领域发挥 Transformer 模型的潜力。与自然语言任务相比，WiFi设备的CSI数据在输入形式、信息粒度等方面有很大差别。具体表现在以下方面：

输入形式 ：不同于自然语言的一维序列，每个CSI数据输入是一个二维矩阵，两个轴分别表示时间和信道。虽然直观上看，CSI数据更像一幅二维图像，但由于CSI的两个维度的含义是完全不同的，实验结果也表明如果使用诸如CNN等二维卷积模型效果不佳。另一个直观思路是将CSI数据视为一组时间序列并提取信道随时间变化的特征 (channel-over-time feature)。研究者发现这样做会忽略了时间随信道变化特征 (time-over-channel feature)。事实上，此类信息可有助于地区分具有趋势相似但姿态不同的活动，例如坐下和躺下。这是因为不同的频道频率对人体的穿透力不同，因此time-over-channel特征对身体密度变化更敏感。

信息粒度 ：由于WiFi信号的采样频率大多为500-1K Hz，每个采样点间隔太小，如果盲目地将每个点都作为生成特征的最小单位，那么模型效果会大打折扣。这种做法类似CV领域的DETR模型等采用的简单粗暴的pixel-wise做法，我们发现在CSI数据上pixel-wise并不可行。这是由于CSI数据的连续性，语义单元应当是连续区间而不是单个的pixel。

因为，该研究的核心任务是如何改进Transformer模型以充分发挥其在基于CSI数据的HAR任务上的效能。

2. Model (方法详述)

作者提出了一种新颖的 双流卷积增强Transformer (THAT) 模型 。THAT的将原始的CSI输入区分为信道流和时序流，并通过二个并行的神经模块分别处理信道流和时间流，以提取time-over-channel和channel-over-time特征。THAT的核心组件是多尺度卷积增强Transformer (MCAT)，其采用残差连接的多头自注意力生成特征表示，与传统Transformer不同的是，MCAT使用多尺度卷积模块替换PFFN来捕获不同尺度的特征信息。此外，THAT使用了高斯范围编码保留CSI数据的时序信息。

图4：THAT模型结构：第一层输入原始CSI数据并将其预处理为时间流和通道流。

MCAT层从两个流中提取判别特征。最后，将两个流要素进行汇总，并将其馈送到最终输出的预测层中。

2.1 模型概览

输入和预处理层：接收原始CSI数据，并处理为时间流和通道流，以作为MCAT层的输入。原始CSI数据是一组记录。每个记录是一个二维矩阵，其中单元是一个实值，表示通道 c 在时间 t 的状态值。为了进行高效的批处理，需要通过补齐/截断等方式让每组记录具有相同长度，即具有相同的维数。为了减少显存占用，可以通过在相邻时间槽上进行均值池化来进一步缩小时间维 T 的大小。时空优先 (维数为 ) 数据用作时间流。通道维优先 (维数为 ) 数据用作通道流，可以通过简单的转置操作得到。

MCAT层 ：从两个流数据中提取判别特征。这一层表现出双流结构。具体说来，每一支路都使用深层多尺度卷积Transformer模型。双流结构分别用以提取time-over-channel和channel-over-time特征。

聚合层 ：接收时间流和信道流的特征，并通过两个独立的卷积块 (CNN) 将它们聚合为固定长度的向量。然后，将时间向量和信道向量连接起来作为预测层的输入。

预测层：具有softmax运算的线性层，用于计算不同动作类别上的概率。

2.2 MCAT层

MCAT由如下两个顺序堆叠的子层组成 (如图5)：

Transformer的多头注意力机制；
具有自适应标度的多尺度CNN。子层间环绕带残差连接和LayerNorm层。

图5：MCAT层的两个顺序堆叠子层：多头注意力机制和具有自适应标度的多标度CNN。

多头注意机制与传统做法是相同的。首先通过全连接层对输入分别得到query、key和value信息。接下来使用每个query 去对每个key 做attention，最终把得到的attention和value相乘。最终拼接不同head的信息得到最终的表示。

如前文所述，对于CSI数据，语义单元应当是一个连续区间而不是单个点。为了自适应地捕获的不同尺度的区域特征，MCAT的第二个子层使用不同尺度的卷积核并通过注意机制在不同尺度之间进行自适应调整。

形式上，该模块通过上述公式进行计算，其中输入X为来自多头注意力机制输出的特征。为具有特定感受野的filter。图5右上部分为一个通过多尺度卷积块生成位置i的特征的例子。该例子中使用内核大小分别为1、3和7的卷积，然后通过一个基于FFN的注意力机制整合多个尺度特征。该注意力使用公式 (2)， (3) 和 (4) 所示的方式来计算组合最终的特征。其中，为注意力分数并且由公式 (3) 中的FFN网络计算而来。

2.3 高斯范围编码

Transformer自身并不包含顺序信息，因此传统的方法需要引入positional encoding对位置信息进行编码。在HAR任务中，某些动作 (如反向动作站起来和坐下去等) 的识别严重依赖时序信息。但是现有的位置编码方法，例如，绝对编码 (也就是Vaswani 的Transformer中提出的positional encoding) [2]或近期提出的相对编码[3]，都定义在单个位置上，并且为每个位置分配高度区分的编码。因此，现有位置编码都不能应用于CSI数据上 (根据实验，采用上述两种编码效果甚至不如没有位置编码) 。

针对CSI数据特征，作者提出了一种高斯范围编码。此编码允许一个位置同时属于多个区域，并在训练过程中动态调整不同范围的比例。假设存在K个不同的时序区域，并使用随机变量表示位置属于第个范围的次数。我们假设是以概率为从高斯分布中采样得出。因此，位置属于不同时间范围的概率如公式 (5) 所示：

给定值向量，是第个范围的值，在此情况下，位置的期望是。其中，变量，是高斯分布参数，而是可学习的位置向量。上述两个变量都被随机初始化，并通过训练整个THAT模型来动态更新它们。

图6：范围编码的示例。对于位置140，可以获得针对K个不同高斯分布的归一化PDF向量，并且向量中的每个元素都表示比例对应的范围。

3. Experiments (实验结果)

实验采用了四个数据集进行评估，即Office Room、Activity Room、Meeting Room和Activity + Meeting。每个数据集都是一组CSI矩阵及其相应的动作标签。表1汇总了它们的简要统计信息。

表1：实验数据信息

总体上，THAT模型性能优于包括CNN、RNN、ABLSTM在内的5种SOTA方法。

表2：THAT和当前主流算法的结果比较

在每个动作类别上，THAT也取得了更为突出的表现，如下表所示。

表3：THAT和其他方法在不同动作上的性能对比

消融测试 (如表4) 证明高斯范围编码，多尺度CNN，以及两流结构对模型效果均具有实质性的影响。

表4：消融测试

作者进一步比较了不同方法的训练和测试时间，THAT模型的时间开销相比序列模型LSTM，ABLSTM有了显著地下降，如下表所示：

表5：不同方法的时间对比

4. Conclusion (结束语)

该研究主要启发点在于：

Transformer首次应用于基于WiFi的人体动作识别任务，并且取得了SOTA的效果。说明 Transformer结构强大的特征表达能力具有普适性 (目前在CV领域Transformer也取得了极大进展)。
对于将Transformer这种线性结构应用于具有二维结构的信号（如图像等），该研究提供了一个新的策略—— 利用两流结构并行抽取各自维度特征 (这点不同于CV的pixel-wise策略)。
目前在CV领域针对Transformer抽取多尺度特征大多先于自注意力，或者自注意力中抽取，而该研究的做法是后于自注意力—— 通过使用多尺度CNN替换PFFN实现。这种方法为今后Transformer的应用也提供了一个新的思路。

滑动查看参考文献~

[1] Wang, Wei, et al. “Understanding and modeling of wifi signal based human activity recognition.” Proceedings of the 21st annual international conference on mobile computing and networking. 2015.

[2] Vaswani, Ashish, et al. “Attention is All you Need.” NIPS. 2017.

[3] Shaw, Peter, Jakob Uszkoreit, and Ashish Vaswani. “Self-attention with relative position representations.” arXiv preprint arXiv:1803.02155 (2018).

作者介绍：

李冰，新南威尔士大学博后研究员，研究方向为知识图谱、文本挖掘、DB+AI。

更多信息请访问个人主页：

https://windofshadow.github.io/

关于我“门”

▼

将门是一家以专注于 发掘、加速及投资技术驱动型创业公司 的新型 创投机构 ，旗下涵盖 将门创新服务 、 将门技术社群 以及 将门创投基金 。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

[email protected]

点击右上角，把文章分享到朋友圈

扫二维码｜关注我们

微信：thejiangmen

[email protected]

点个“ 在看 ”，分享好内容

About The Author

bjmayor

程序员，码农，php,python,ios,android,go，产品经理，创业。

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31