AI画家化身“心灵捕手”，绘制风格化肖像，NeurIPS大会一举成名！

2013 年 5 月 4 日

AI在艺术界表现出越来越惊人的“天赋”

我们知道用AI来绘画、写诗、作曲已经不是新鲜事。但在艺术领域，AI在试图模仿、甚至超越人类的过程中，始终存在一个难以逾越的瓶颈，就是人类与生而来的创造力。

这也是AI研发人员聚焦深度学习和强化学习着力攻克的难点之一。

近日，预印论文库arXiv上发表了一项最新研究成果，论文中的AI画家可以化身“心灵捕手”，通过对话式沟通感受人类的独特品质、个性和情绪，从而绘制具备内在情感特征的人物肖像。

据了解，这位Empathic AI Painter，出自来自加拿大温哥华西蒙弗雷泽大学（SFU）iViz实验室团队。此前，他们的AI画家曾在国际神经信息处理系统（NeurIPS）大会做了现场演示，吸引众多用户参与围观，还受到CTV国家新闻的专项报道。

那么这款“心灵捕手”AI画家是如何进行艺术创作的呢？

会聊天的AI画家

据该团队介绍，AI画家具备两套创意系统，一是对话式语音交互系统，一是AI人像生成模型系统，他们均通过3D虚拟人像来呈现。

Empathic AI Painter

与传统绘制画像不同，它不是一种静态的“眼观”模式，而是采取对话聊天的形式，捕捉内在情绪完成艺术创作。

该团队教授史蒂夫·迪帕拉（ DiPaola）表示，3D虚拟画家的语音交互系统可以与用户聊天，就某一事件采访他们的感受，了解他们的性格，进而通过AI人像生成模型，在绘画过程中体现不同的情感特质。总的来说，AI画家需要完成三项任务：

感知用户语言和行为
基于以上信息，判定人物性格和情感特质；
通过AI人像生成模型，在绘画风格、色彩、纹理上呈现不同的用户特质；

在ECA方面，3D虚拟人像融合了NLP自然语言处理模型，在交谈中通过面部情感、语言压力、语义，感知人类的情感和对话，并作出相应的反馈。另外，其内置的共情建模，还可以通过手势、言语、表情，对用户情绪作出感知性反应。自然、真诚的对话表现可以让人类更真实的表现自己。

在个人特质评估方面，研究人员采用了“五大人格模型”（FFM）。它是由科斯塔和麦克雷在20世纪80年代提出的，被广泛用于人格分析。模型提出了神经质（N）、外倾性（E）、经验开放性（O）、宜人性（A）和认真性（C）五大人格因素，并通过NEO人格调查表进行测量。

在肖像渲染阶段，利用mDD（（ModifiedDeep Dream）模型在16万张数据集上进行深度训练，由ePainterly模块完成的最终的风格绘制。

17种不同类型的情感肖像

那么它的作画效果如何呢？之前提到，AI画家曾在NeurIPS 2019大会上做过现场展示，当时有26位用户参与，并完成的现场交互。实际上原、人格调查表有120多个问题，大约需要45分钟才能完成。

但这里研究人员仅使用了每个维度的一个问题进行了互动，用时不足5分钟。以下是围绕“会议感受”主题下的互动问题：

最终结果显示，84.72%的用户语音被准确识别，AI画家完成呈现除了17中不同的个性类别，同时用户也表示，该风格表现出了其内在的情感特征。（以下是部分作品）

目前这款3D虚拟画家的绘画作品以已在去全球展出，包括纽约市和惠特尼的现代艺术博物馆（MoMA）。

DiPaola教授认为，AI在激发艺术与高级计算机技术融合方面存在无限的潜力。他们所研发的AI系统只是艺术创新的第一步，之后他们还将在此系统上，探索基于诗歌、散文的艺术创作。

背后的技术原理

与传统AI设计使用单一算法不同，DiPaola教授团队的AI系统融合多种不同的技术。我们先来看一下完成的AI系统的架构组成，分为对话交互循环（Conversational Interaction Loop）和生成风格化肖像（Generative Portrait stylization）两大模块组成，这两个模块之间由BIG-5人格模型链接，用于传达个性化肖像的关键信息。

第一阶段的对话交互循环功能是基于具有移情模块的M-Path系统实现的。它可以呈现出3D虚拟人像的形式。在与人类的对话中，具备类似视频会议的输入输出设置，能够根据用户的情感和语言属性实时处理输入，进而产生言语或行为的移情输出。具体来说，M-Path系统的运行是基于三个不同模块控制：

感知模块：用于采集和处理参与者信息。当用户讲话时，此模块通过麦克风和摄像机收集音频和视频作为输入信号。在视频输入源中，面部情感识别模块采用的是OpenCV算法，用来识别不同面部表情所对应的情绪类别。本次研究中将基本情绪分为6种，愤怒，厌恶，恐惧，喜悦，悲伤，惊奇和蔑视，这一分类是基于CK+数据集的深度学习训练而获得。

另外，来自麦克风的语音输入首先会被传送至文本模块，进行转化转换处理。该模块采用的是Google的STT服务。

情绪分析组件使用从STT服务接收到的文本来评估文本的极性值（正-中性-负），然后通过SO-CAL情感分析器在NRC-Canada词典上进行了重新训练，最后将文本发送至决策组件生成对话响应。整个处理过程会持续到对方发送语音结束为止。

行为控制器模块：负责在对话循环中，生成同理心和具有目标导向的语言/非语言响应。在收听阶段，3D虚拟人像会产生相应的情感匹配和反向传播行为。情感匹配是通过移情机制对用户面部表情的选择而实现的。而在交谈中通过检测到暂停触发的点头行为来创建反向传播，这两种行为的集合，最终生成了获取情感的聆听行为。

当对话结束后，从STT引擎接收到的文本信息会与用户的总体情感一起传递至对话管理器（Dialogue Manager）,并最终发送到移情机制（e Empathy Mechanisms）组件。 DM的目标是完成Big-5人格问卷识别的个性类别。 EM的目标生成对应类别的情感响应。

行为管理模块：用于创建自然的对话行为。M-Path在对话的所有状态下连续生成非语言或非语言行为，如面部表情，身体姿势、手势及嘴唇移动会与语音输出同步完成，并作为行为标记语言（Behavior Markup Language）消息发送到Smartbody角色动画平台以显示生成的行为。

第二阶段生成风格化肖像，这部分的处理分为三个步骤。首先主要是运用AI工具对人像进行预处理，包括图像背景分割，调整人像的光和色彩的平衡。

然后将预处理的图像输入至mDD系统模型进行深度训练，这里借用的是Google的Deep Dream模型，基于本次研究特性进行了部分调整，因此在这里成为mDD（ModifiedDeep Dream）。它所使用的数据集收集了来自3000位艺术家的160,000张带有标签和分类的画作，总大小为67 GB。

最后，ePainterly系统结合Deep Style来处理人像表面纹理以及非真实感的渲染（NPR）技术，例如粒子系统，调色板操纵和笔触引擎技术。这个不断迭代的过程将完成最终的肖像风格。其中ePainterly模块是讲点绘画系统Painterly的扩展。

这部分NPR渲染在很大程度上减少了mDD输出图像时产生的噪声伪影。以下是各个阶段的效果图：

虽然AI画家在捕捉人类情感，绘制风格化肖像方面表现非常出色，但该研究团队认为它还有很大的扩展空间，并表示从情感评估模型、用户个性分析和互动场景三个方面对其进行优化。

引用来源：（雷锋网雷锋网 (公众号：雷锋网) 雷锋网）

论文地址： https://arxiv.org/pdf/2005.14223.pdf

Youtobe地址：https://www.youtube.com/watch?time_continue=438&v=RMLD7jccv_w&feature=emb_logo

https://techxplore.com/news/2020-06-ai-painter-portraits-based-traits.html

https://ivizlab.org/research/ai_empathetic_pianter/

雷锋网原创文章，未经授权禁止转载。详情见转载须知。

M	T	W	T	F	S	S
« Jan
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

演道网

AI画家化身“心灵捕手”，绘制风格化肖像，NeurIPS大会一举成名！

会聊天的AI画家

17种不同类型的情感肖像

背后的技术原理

About The Author

peace

会聊天的AI画家

17种不同类型的情感肖像

背后的技术原理

Related Posts

About The Author

peace