AI画家化身“心灵捕手”,绘制风格化肖像,NeurIPS大会一举成名!

AI在艺术界表现出越来越惊人的“天赋”

我们知道用AI来绘画、写诗、作曲已经不是新鲜事。但在艺术领域,AI在试图模仿、甚至超越人类的过程中,始终存在一个难以逾越的瓶颈,就是人类与生而来的创造力。

这也是AI研发人员聚焦深度学习和强化学习着力攻克的难点之一。

近日,预印论文库arXiv上发表了一项最新研究成果,论文中的AI画家可以化身“心灵捕手”,通过对话式沟通感受人类的独特品质、个性和情绪,从而绘制具备内在情感特征的人物肖像。

据了解,这位Empathic AI Painter,出自来自加拿大温哥华西蒙弗雷泽大学(SFU)iViz实验室团队。此前,他们的AI画家曾在国际神经信息处理系统(NeurIPS)大会做了现场演示,吸引众多用户参与围观,还受到CTV国家新闻的专项报道。

那么这款“心灵捕手”AI画家是如何进行艺术创作的呢?

会聊天的AI画家

据该团队介绍,AI画家具备两套创意系统,一是对话式语音交互系统,一是AI人像生成模型系统,他们均通过3D虚拟人像来呈现。

Empathic AI Painter

与传统绘制画像不同,它不是一种静态的“眼观”模式,而是采取对话聊天的形式,捕捉内在情绪完成艺术创作。

该团队教授史蒂夫·迪帕拉( DiPaola)表示,3D虚拟画家的语音交互系统可以与用户聊天,就某一事件采访他们的感受,了解他们的性格,进而通过AI人像生成模型,在绘画过程中体现不同的情感特质。总的来说,AI画家需要完成三项任务:

  • 感知用户语言和行为

  • 基于以上信息,判定人物性格和情感特质;

  • 通过AI人像生成模型,在绘画风格、色彩、纹理上呈现不同的用户特质;

在ECA方面,3D虚拟人像融合了NLP自然语言处理模型,在交谈中通过面部情感、语言压力、语义,感知人类的情感和对话,并作出相应的反馈。另外,其内置的共情建模,还可以通过手势、言语、表情,对用户情绪作出感知性反应。自然、真诚的对话表现可以让人类更真实的表现自己。

在个人特质评估方面,研究人员采用了“五大人格模型”(FFM)。它是由科斯塔和麦克雷在20世纪80年代提出的,被广泛用于人格分析。模型提出了神经质(N)、外倾性(E)、经验开放性(O)、宜人性(A)和认真性(C)五大人格因素,并通过NEO人格调查表进行测量。

在肖像渲染阶段,利用mDD((ModifiedDeep Dream)模型在16万张数据集上进行深度训练,由ePainterly模块完成的最终的风格绘制。

17种不同类型的情感肖像

那么它的作画效果如何呢?之前提到,AI画家曾在NeurIPS 2019大会上做过现场展示,当时有26位用户参与,并完成的现场交互。实际上原、人格调查表有120多个问题,大约需要45分钟才能完成。

但这里研究人员仅使用了每个维度的一个问题进行了互动,用时不足5分钟。以下是围绕“会议感受”主题下的互动问题:

最终结果显示,84.72%的用户语音被准确识别,AI画家完成呈现除了17中不同的个性类别,同时用户也表示,该风格表现出了其内在的情感特征。(以下是部分作品)

目前这款3D虚拟画家的绘画作品以已在去全球展出,包括纽约市和惠特尼的现代艺术博物馆(MoMA)。

DiPaola教授认为,AI在激发艺术与高级计算机技术融合方面存在无限的潜力。他们所研发的AI系统只是艺术创新的第一步,之后他们还将在此系统上,探索基于诗歌、散文的艺术创作。

背后的技术原理

与传统AI设计使用单一算法不同,DiPaola教授团队的AI系统融合多种不同的技术。我们先来看一下完成的AI系统的架构组成,分为对话交互循环(Conversational Interaction Loop)和生成风格化肖像(Generative Portrait stylization)两大模块组成,这两个模块之间由BIG-5人格模型链接,用于传达个性化肖像的关键信息。

第一阶段的对话交互循环功能是基于具有移情模块的M-Path系统实现的。它可以呈现出3D虚拟人像的形式。在与人类的对话中,具备类似视频会议的输入输出设置,能够根据用户的情感和语言属性实时处理输入,进而产生言语或行为的移情输出。具体来说,M-Path系统的运行是基于三个不同模块控制:

感知模块:用于采集和处理参与者信息。当用户讲话时,此模块通过麦克风和摄像机收集音频和视频作为输入信号。在视频输入源中,面部情感识别模块采用的是OpenCV算法,用来识别不同面部表情所对应的情绪类别。本次研究中将基本情绪分为6种,愤怒,厌恶,恐惧,喜悦,悲伤,惊奇和蔑视,这一分类是基于CK+数据集的深度学习训练而获得。

另外,来自麦克风的语音输入首先会被传送至文本模块,进行转化转换处理。该模块采用的是Google的STT服务。

情绪分析组件使用从STT服务接收到的文本来评估文本的极性值(正-中性-负),然后通过SO-CAL情感分析器在NRC-Canada词典上进行了重新训练,最后将文本发送至决策组件生成对话响应。整个处理过程会持续到对方发送语音结束为止。

行为控制器模块:负责在对话循环中,生成同理心和具有目标导向的语言/非语言响应。 在收听阶段,3D虚拟人像会产生相应的情感匹配和反向传播行为。情感匹配是通过移情机制对用户面部表情的选择而实现的。而在交谈中通过检测到暂停触发的点头行为来创建反向传播,这两种行为的集合,最终生成了获取情感的聆听行为。

当对话结束后,从STT引擎接收到的文本信息会与用户的总体情感一起传递至对话管理器(Dialogue Manager),并最终发送到移情机制(e Empathy Mechanisms)组件。 DM的目标是完成Big-5人格问卷识别的个性类别。 EM的目标生成对应类别的情感响应。

行为管理模块:用于创建自然的对话行为。M-Path在对话的所有状态下连续生成非语言或非语言行为,如面部表情,身体姿势、手势及嘴唇移动会与语音输出同步完成,并作为行为标记语言(Behavior Markup Language)消息发送到Smartbody角色动画平台以显示生成的行为。

第二阶段生成风格化肖像,这部分的处理分为三个步骤。首先主要是运用AI工具对人像进行预处理,包括图像背景分割,调整人像的光和色彩的平衡。

然后将预处理的图像输入至mDD系统模型进行深度训练,这里借用的是Google的Deep Dream模型,基于本次研究特性进行了部分调整,因此在这里成为mDD(ModifiedDeep Dream)。它所使用的数据集收集了来自3000位艺术家的160,000张带有标签和分类的画作,总大小为67 GB。

最后,ePainterly系统结合Deep Style来处理人像表面纹理以及非真实感的渲染(NPR)技术,例如粒子系统,调色板操纵和笔触引擎技术。这个不断迭代的过程将完成最终的肖像风格。其中ePainterly模块是讲点绘画系统Painterly的扩展。

这部分NPR渲染在很大程度上减少了mDD输出图像时产生的噪声伪影。以下是各个阶段的效果图:

虽然AI画家在捕捉人类情感,绘制风格化肖像方面表现非常出色,但该研究团队认为它还有很大的扩展空间,并表示从情感评估模型、用户个性分析和互动场景三个方面对其进行优化。

引用来源: (雷锋网雷锋网 (公众号:雷锋网) 雷锋网)

论文地址: https://arxiv.org/pdf/2005.14223.pdf

Youtobe地址:https://www.youtube.com/watch?time_continue=438&v=RMLD7jccv_w&feature=emb_logo

https://techxplore.com/news/2020-06-ai-painter-portraits-based-traits.html

https://ivizlab.org/research/ai_empathetic_pianter/

雷锋网原创文章,未经授权禁止转载。详情见 转载须知