您现在的位置是:首页 > 互联网 > 正文

一种深度学习技术可为实时2-D动画生成实时口型同步

发布时间:2022-06-18 05:20:02编辑:来源:

实时二维动画是一种相当新颖而强大的交流形式,它使表演者可以实时控制卡通人物,同时与其他演员或观众互动和即兴表演。最近的例子包括史蒂芬·科尔伯特(StephenColbert)在《后期秀》中采访卡通客人,荷马在《辛普森一家》(TheSimpsons)的一段节目中回答观众的现场电话提问,阿切尔(Archer)在ComicCon上与现场观众交谈,以及迪斯尼的《星际大战:邪恶力量》和MyLittlePony通过YouTube或FacebookLive与粉丝们进行实时聊天会话。

制作逼真的,有效的实时2D动画需要使用交互式系统,该系统可以自动将人类表演实时转换为动画。这些系统的关键方面是获得良好的口型同步,这实质上意味着动画人物的嘴巴在说话时会适当移动,模仿人类表演者的嘴巴运动。

良好的口型同步可以实现更有效,更强大的实时2D动画,使动画角色可以更真实地体现性能。相反,不良的口型同步通常会破坏角色作为现场表演或对话参与者的幻觉。

在最近在arXiv上发表的一篇论文中,AdobeResearch和华盛顿大学的两名研究人员介绍了一种基于深度学习的交互式系统,该系统可以自动为分层的2D动画角色生成实时唇形同步。他们开发的系统使用了长期短期记忆(LSTM)模型,这是一种递归神经网络(RNN)架构,通常用于涉及对数据进行分类或处理以及进行预测的任务。

“由于语音几乎是每个实时动画的主要组成部分,因此我们认为在这一领域要解决的最关键的问题是实时口型同步,这需要将演员的语音转换为动画角色中相应的嘴巴动作(即视位序列),“进行这项研究的两位研究员WilmotLi和DeepaliAneja通过电子邮件告诉TechXplore。“在这项工作中,我们专注于为实时二维动画创建高质量口型同步的特定问题。”

Li是AdobeResearch的首席科学家,拥有博士学位。计算机科学领域的一位学者一直在针对计算机图形学与人机交互之间的交叉点进行广泛的研究。另一方面,Aneja目前正在完成博士学位。她是华盛顿大学图形和图像实验室的一员。

Li和Aneja开发的系统使用简单的LSTM模型,以每秒24帧的速度将流音频输入转换为相应的视位音素序列,并且延迟小于200毫秒。换句话说,他们的系统允许动画人物的嘴唇以类似于人类用户说话的方式实时移动,并且声音和嘴唇移动之间的延迟小于200毫秒。

Li和Aneja解释说:“虽然我们的系统主要依赖于现有的网络体系结构,但我们的贡献之一就是确定了合适的特征表示和网络配置,以实现实时2D唇形同步的最新结果。”“我们工作的另一个贡献是我们设计了一种新的方法来收集模型的训练数据。”

获取标记的口型同步数据以训练深度学习模型可能既昂贵又耗时。意识到这些限制,Li和Aneja开发了一种方法,可以帮助更快,更有效地生成训练数据。

Li和Aneja表示:“在与专业动画制作人员的讨论中,他们估计每分钟手工制作Viseme序列的语音需要五至七个小时。”“此外,在创建口形同步时,动画师会根据音素的具体选择以及过渡的时间和数量做出样式上的决定。因此,训练一个'通用'模型对于大多数应用来说是不够的。”

为了更有效地训练他们的LSTM模型,Li和Aneja引入了一项新技术,即使用音频时间扭曲来增强手工编写的训练数据。即使在较小的标记数据集上训练他们的模型时,这种数据增强程序也可以使他们获得良好的嘴唇同步。

为了评估他们的互动系统在实时生成口型同步中的有效性,研究人员要求人类观众对使用他们的模型和使用商业二维动画工具制作的实时动画的质量进行评估。他们发现,与其他技术相比,大多数观看者更喜欢他们的方法产生的口型同步。

Li和Aneja表示:“我们还分析了口型同步质量与训练数据量之间的权衡,得出结论,我们的数据增强方法显着改善了模型的输出。”“我们的实验表明,只需13到15分钟的手工制作的嘴唇同步数据,我们就能产生合理的结果。”

有趣的是,Li和Aneja发现,他们的LSTM模型可以基于其所训练的特定数据来获取不同的口型同步样式,同时还可以在广泛的演讲者中广泛推广。该模型取得了令人鼓舞的结果,令他们印象深刻,Adobe决定将其版本集成到2018年秋季发布的AdobeCharacterAnimator软件中。

“准确,低延迟的口型同步对于几乎所有实时动画设置都是至关重要的,而且我们广泛的人工判断实验表明,我们的技术对现有的最新2D口型同步引擎进行了改进,其中大多数都需要离线处理”,李和Aneja说。“因此,我们认为我们的工作对于实时和非实时2D动画制作都具有直接的实际意义。我们不了解以前的2D口型同步工作,并与商业工具进行了类似的全面比较。”

Li和Aneja在最近的研究中能够解决与实时2D动画技术发展相关的一些关键技术挑战。首先,他们展示了一种使用RNN编码用于2D唇形同步的艺术规则的新方法,该方法将来可能会得到进一步增强。

Li和Aneja表示:“我们相信应用现代机器学习技术来改善2D动画工作流程的机会更多。”“到目前为止,挑战之一是缺乏训练数据,这是很昂贵的。但是,正如我们在本文中所展示的,可能存在利用结构化数据和自动编辑算法(例如动态时间扭曲)来最大化利用的方法。手工制作的动画数据的实用程序。”

尽管研究人员提出的数据增强策略可以大大减少设计用于生成实时口型同步的模型的训练数据需求,但手动设置足够的口型同步内容动画以训练新模型仍然需要大量的工作和精力。然而,根据Li和Aneja的说法,可能不需要为每种新的口型同步样式从头开始重新训练整个模型。

研究人员说:“探索各种微调策略将很有趣,这些策略可以使动画设计人员以更少的用户输入量使模型适应不同的风格。”“一个相关的想法是直接学习一个显式包含可调风格参数的口型同步模型。尽管这可能需要更大的训练数据集,但潜在的好处是该模型足够通用,可以支持多种口型同步样式而无需额外的培训”。

有趣的是,在他们的实验中,Aneja和Li观察到,他们用来训练模型的简单的交叉熵损失无法准确反映出嘴唇同步序列之间最相关的感知差异。更具体地说,他们发现某些差异(例如,缺少过渡或用张开的虎钳代替张口的虎钳)比其他差异明显得多。

Li和Aneja说:“我们认为,在未来的研究中设计或学习基于感知的损失可能会导致结果模型的改进。”

标签:

上一篇
下一篇

最新文章