ICCV 2019 开源论文 | 少量目标域样本下的图像翻译模型
作者丨薛洁婷
学校丨北京交通大学硕士生
研究方向丨 图像翻译
概要
图像翻译任务旨在学习一个能将原域图像映射到目标域图像的有条件的图像生成函数。以往的无监督图像翻译模型,如 CycleGAN, StarGAN 等都是基于大量原域和目标域样本为前提来训练模型,并且训练出来的模型仅能进行训练样本域之间的翻译。
这篇 paper 的主要创新点就是通过使用少量的目标域图像即可解决未知相似域内的图像翻译问题 。和现有的图像翻译模型相比,已经可以达到 state-of-the-art 的效果,作者在 Github 上也分享了源码,有兴趣的读者可以去看看:
https://nvlabs.github.io/FUNIT
模型架构
这篇论文主要还是基于了 GAN 的架构来实现的, 比较特殊的是对于生成器的设计方式。
▲ Figure 1. FUNIT的生成器架构
生成器的架构如图 1 所示,生成器的目的依旧是希望从原域图像映射到目标域,但这里生成器的输入不再是一张原域内的图像,而是 一组原域图像 。
仔细想想我们人类可以基于之前的视觉经验很快的想象出一个未知物体的图像,那模型是不是也可以有这样的能力? 因此作者这里利用许多不同类别的相似域图像去训练生成器,希望生成器能学习到一些视觉经验并将其应用在未知目标域上。
在实际训练时,生成器从一组源于图像中随机选择一张图像作为内容图像 ,选择另一张类别图像 ,根据这两张图像来生成与具有结构相似性与共属一类的图像,在测试阶段生成器只需要 少量的相似未知域图像 作为 ,依旧从原域随机采样内容图像,从而生成目标域图像。 也就是说用大量不同类的原域图像去 train 生成器,让其具有“视觉经验”,之后我们仅需少量的与原域相似但不同类的图像作为目标域进行翻译。
具体来说生成器由三个部分组成: 内容编码器,类别编码器以及解码器:
-
内容编码器的目的是将原域图像编码成内容向量
-
类别编码器是将 K 个原域图像映射至类别向量
-
解码器结合内容向量和类别向量生成出目标域图像(使用了 AdaIN)
这里的鉴别器通过同时解决多个对抗分类任务来训练。每个对抗分类任务都是一个二分类问题,决定输入图像是否来自原域。这里在训练鉴别器时采用了这样的策略:只有当鉴别器对图像分类错误时,惩罚鉴别器,如果鉴别器将 fake image 分类正确则惩罚生成器。
损失函数
这里模型采用了三个损失之和作为损失函数:对抗损失,重建损失以及特征匹配损失。这三个损失在图像翻译领域内属于比较常见的损失函数。
1. 对抗损失,也就是传统意义上的有标签的 GAN 损失,其中 :
2. 重建损失,通过给生成器输入同一张图像的和来限制生成器,鼓励其输出与输入完全一致的图像:
3. 特征匹配损失,首先从 D 中删除最后一层来构造一个特征提取器 ,鼓励从 中提取的特征与从类图像 中提取的特征的均值之间的 L1 损失最小,这样做的原因是因为这里训练模型时都采用的是相似域内的图像,其特征也应该保持相似:
实验结果
作者使用了 Animal Faces, Birds, Flowers 以及 Foods 进行实验,在对比实验这里采用了以往图像翻译模型不具有的对比方式。
1. 公平对比。 仅用原域图像去 train StarGAN,在 test 时选取 K 个 未知 目标域图像,使用预训练网络 VGG 来计算目标域图像与原域图像之间的余弦距离,之后使用 softmax 在余弦距离上获取类相关向量输入给 StarGAN,这样做的原因是假设类关联向量可以编码一个未知的目标对象类与每个原类的相关程度,这可以用于使 starGAN 对少量目标域样本进行翻译。
2. 不公平对比。 基线模型在训练时也包括了目标域图像,也就是模型对于目标域图像不再是未知的了,这里的基线模型采用了 StarGAN, CycleGAN, UNIT 等。
▲ Figure 2. 公平模型和不公平模型的对比结果
最后这里再放一张模型的输出结果吧,可以看出模型的翻译效果确实很不错。
总结
FUNIT 的主要亮点是对于 生成器架构的设计 ,结合 GAN 可以使得模型对 少量的未知相似 目标域图像进行翻译,也就是说模型根据其之前累积的 视觉经验 将图像翻译至从未见过的目标域内。 但该模型目前仅针对相似域内的图像,因此对于域内相似度差异较大的情况可能效果不会特别好。
参考文献
[1].J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8
[2].Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unifified generative adversarial networks for multi-domain image-to-image translation. arXiv preprint, 1711, 2017.