技术资讯 | 浅析视频内容理解技术-多模态学习
目前随着短视频和小视频快速发展,各种短视频、小视频app开始大量占据用户的手机使用时长。 而如何 围绕短视频、小视频做好内容理解 ,成了目前学术界和工业界的研究热点。 本文将主要介绍以 多模态学习 为主的视频内容理解技术。
壹:多模态学习的原理
传统意义上,我们接触最多的视频特征模态主要为: 语音 、 视觉 和 文本 。
图1 多模态示意图
多模态学习的模态之间存在两种特性: 冗余性 和 互补性 。
冗余性 是指当对不同模态进行组合的时候,多模态特征的表征与单模态特征的表征性能相当。这时候我们可以理解为多模态的特征是冗余,非必须的。
互补性 是指多模态特征表征相对于单模态特征表征性能显著。这时我们可以认为多模态学习发挥了模态之间的互补性。
多模态的特征 融合方式 主要有以下两种:
图2 不同融合方式示意图
1
Early Fusion
多模态特征在最后的分类任务之前进行融合, 其中融合方式主要为:
simple concatenation & element wise multiplication or summation和multilayer perceptron等。
下面看看 TFN [1] 模型是如何进行early fusion的。
TFN:Multimodal Tensor Fusion Network
图3 TFN网络结构
TFN网络是一个典型通过矩阵运算进行融合特征融合的多模态网络。模型主要用到了 文本 , 图像 和 音频 三种模态。作者通过构建下面的矩阵运算完成了三种模态的融合。
2
Late Fusion
多模态特征各自进行分类任务,最后对分类的结果进行融合。这种融合方式使用的场景主要在 无监督 的领域的多模态匹配。
图4 DSSM网络示意图
《Learning Deep Structured Semantic Models for Web Search using Clickthrough Data》 [2] 就引入了late fusion的多模态特征融合方式进行图像与文本描述的匹配。 这种方式主要依赖多最后的各个模型信息进行相似距离计算。
图5 Late Fusion结构示意图
模型最后会生成成对的特征表征,模型的目标函数就是需要最大化响应这个经过线性映射的特征对。
贰:视频理解中的多模态学习
多模态学习的 核心 就是如何更好更高效地实现特征融合,进而更好地你用模态直接的互补性。近年来多模态已从之前的简单融合逐渐演变为基于 attention机制 的 融合 。
视频理解中一般会使用的模态有:
RGB:图像;
Flow:光流;
Audio:音频。
通过Youtube8m和Kinetics这类竞赛的沉淀,上述的三模态的机制逐步成了视频理解竞赛的标配。
首先我们就从简单融合的多模态学习开始讲。 图6 是Temporal Xception Network [3] 网络的结构。
该网络结构的是最典型也是最初级的多模态学习网络。每个模态的特征都通过Xception网络进行特征提取,然后进行concatenate运算,然后经过一个全连接层后接上softmanx损失函数。
图6 TXN网络结构示意图
这种结果就是将所有的模态和所有模态序列中的元素都认为是同等重要,并进行融合。从当前的角度,这种模型并 没有 有效利用 起多模态之间的特征 互补性 。
后面随着attention机制的流行,多模态学习也慢慢引入了attention机制。
图7 是 Shifting Attention Networks [3] 多模态网络的网络结构。该网络的创新之处就是引入了 Shifting Attention机制 ,去平衡每个模态的序列中某个序列的重要程度。
这类引入attention机制的多模态学习模型,相较于之前简单的concate的性能有提升。
图7 SAN网络示意图
Shifting attention的实现:
图8 是Kinetics竞赛中Shifting Attention Networks与Temporal Xception Network的结果对比。
图8 Kinetics 验证集结果
目前attention机制已成为多模态学习的标配,各种attention结构都被引入多模态学习中用来平衡不同模态和不同视频帧之间的贡献。
同时随着NLP模型表征能力的不断加强,文本模态慢慢取代了原有Folw和Audio的地位,视觉和文本的双模态开始成了多模态学习中新的主导。
《VideoBERT: A Joint Model for Video and Language Representation Learning》 [4] 创新地将图像与文本同时放入BERT结构进行训练,提出了VideoBert的多模态学习架构。
图9 VideoBERT网络示意图
这种模型结构的初衷就是想利用BERT模型中的Transformer [5] 结构对图像和文本特征进行充分融合,从而实现多模态特征的充分互补以 提升 多模态学习的 性能 。
图10 Transformer示意图
图10 是Transformer的结构,其核心是 Multi-head attention机制 。
图11 Video Captioning performance >
后续微软在2019年8月同样发表了一篇 基于BERT结构的多模态学习网络 。
《VL-BERT: PRE-TRAINING OF GENERIC VISUALLINGUISTIC REPRESENTATIONS》 [6]
这篇论文在VideoBERT的基础上,不仅引入了全局的图像特征,还将图像中的目标区域引入了BERT结构中进行多模态学习。
图12 是VL-BERT的网络结构示意图。
图12 VL-BERT网络结构
VL-BERT不同于VideoBERT将图像特征作为单独的一部分,VL-BERT将文本特征于图像特征的向量进行了相加操作。
其中与文本特征相加的为图像全局信息特征,图像中的目标区域特征与图像的全局区域相加, 按作者的解释这样做是:
1 .为了加强文本中的每个单词与图像全局中某些位置的响应;
2 .强化图像目标和图像全局的响应。
单VL-BERT由于引入了文本与图像的相加操作,导致BERT在海量文本数据上的预训练权重失效。因此训练VL-BERT需要大量任务相关的数据进行预训练,整个过程较耗时。
图13 VL-BERT 在VCR数据集中性能
VL-BERT在多模态任务中,例如图像问答,视频描述中都取得了不错的效果。
叁:结语
未来随着短视频小视频业务的不断开展,基于多模态的视频内容理解的应用场景将越来越多,学术界和工业界也会有更多更先进的多模态学习方法。
希望本文能起到抛砖引玉的作用,让更多人了解并应用多模态学习。
引用文献:
[1] Zadeh, Amir, et al. “Tensor fusion network for multimodal sentiment analysis.” arXiv preprint arXiv:1707.07250 (2017).
[2] Huang, Po-Sen, et al. “Learning deep structured semantic models for web search using clickthrough data.” Proceedings of the 22nd ACM international conference >. ACM, 2013.
[3] Bian, Yunlong, et al. “Revisiting the effectiveness of off-the-shelf temporal modeling approaches for large-scale video classification.” arXiv preprint arXiv:1708.03805 (2017).
[4] Sun, Chen, et al. “Videobert: A joint model for video and language representation learning.” arXiv preprint arXiv:1904.01766 (2019).
[5] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems . 2017.
[6] Su, Weijie, et al. “Vl-bert: Pre-training of generic visual-linguistic representations.” arXiv preprint arXiv:1908.08530 (2019).
投稿 | 内容标签团队
编辑 | sea
排版 | sea