对抗高质量图像生成中的模式崩溃，及相关论文推荐

2009 年 10 月 27 日

亮点简介：对于不使用 GANs 的，也就是基于端对端网络的条件图像生成以及图像转换任务来说，大多数现有方法都只能生成一张或者有限张好的图像；甚至于，使用 GANs 的方法虽然理论上可以不受数量限制，但实际上也需要想办法克服模式崩溃（mode collapse）问题，不然生成的图像都大同小异。这篇论文就是 Jitendra Malik 等人对模式崩溃问题提出的解决方案，目标是能根据语义分割图像生成任意多张对应的真实图像，在保留同样的语义布局的同时，可以有无限多的外观变化。

他们的方法是使用了最近提出的 Implicit Maximum Likelihood Estimation (隐式最大似然估计，IMLE) 框架，在网络中用隐含向量对应图像外观的不同因素，从而通过隐含向量的变化，控制图像的外观变化；这样，对图像风格的变化有了更多控制，通过不同向量的值的组合也就能让得到的结果更多样、不重复。另外，即便使用同样的模型架构，他们的方法生成的图像也瑕疵更少。虽然学习到的隐含空间缺乏监督，但是能够学习到一些合理的结构，就能够帮助让模型发挥出很多的表现。

About The Author

stack