对抗高质量图像生成中的模式崩溃,及相关论文推荐

  • 亮点简介:对于不使用 GANs 的,也就是基于端对端网络的条件图像生成以及图像转换任务来说,大多数现有方法都只能生成一张或者有限张好的图像;甚至于,使用 GANs 的方法虽然理论上可以不受数量限制,但实际上也需要想办法克服模式崩溃(mode collapse)问题,不然生成的图像都大同小异。这篇论文就是 Jitendra Malik 等人对模式崩溃问题提出的解决方案,目标是能根据语义分割图像生成任意多张对应的真实图像,在保留同样的语义布局的同时,可以有无限多的外观变化。

    他们的方法是使用了最近提出的 Implicit Maximum Likelihood Estimation (隐式最大似然估计,IMLE) 框架,在网络中用隐含向量对应图像外观的不同因素,从而通过隐含向量的变化,控制图像的外观变化;这样,对图像风格的变化有了更多控制,通过不同向量的值的组合也就能让得到的结果更多样、不重复。另外,即便使用同样的模型架构,他们的方法生成的图像也瑕疵更少。虽然学习到的隐含空间缺乏监督,但是能够学习到一些合理的结构,就能够帮助让模型发挥出很多的表现。