您现在的位置是：首页 > 科技 > 正文

人工智能产生逼真的声音愚弄人类

发布时间：2024-06-14 06:55:12编辑：来源：

为了让机器人能够驾驭世界，他们需要能够对周围环境以及在一系列事件中可能发生的事情做出合理的假设。

人类学习这些东西的一种方式是通过声音。对于婴儿来说，戳戳和刺激物品不仅有趣; 一些研究表明，实际上他们是如何发展直觉物理学理论的。难道我们可以让机器以同样的方式学习吗?

来自麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员已经演示了一种有效学习如何预测声音的算法：当显示被击中物体的无声视频片段时，该算法可以产生足够逼真的击打声音愚弄人类观众。

这种“声音图灵测试”不仅仅是一个聪明的计算机技巧：研究人员设想未来版本的类似算法可用于自动为电影和电视节目制作声音效果，以及帮助机器人更好地理解物体的属性。

“当你用手指划过酒杯时，它所产生的声音反映出它中含有多少液体，”CSAIL博士生安德鲁欧文斯说道，他是即将发表的一篇描述这项工作的论文的第一作者。“模拟这种声音的算法可以揭示关于物体形状和材料类型的关键信息，以及它们与世界相互作用的力量和运动。”

该团队使用了“深度学习”领域的技术，这些技术涉及教授计算机筛选大量数据以自行查找模式。深度学习方法特别有用，因为它们使计算机科学家不必手动设计算法并监督他们的进度。

该论文的共同作者包括最近的博士毕业生Phillip Isola和麻省理工学院教授Edward Adelson，Bill Freeman，Josh McDermott和Antonio Torralba。本文将于本月晚些时候在拉斯维加斯举行的计算机视觉和模式识别年会(CVPR)上发表。

训练声音产生算法的第一步是让它听起来有效。几个月以来，研究人员记录了大约1,000个视频，估计有46,000个声音代表各种物体被击打，刮擦和用鼓棒刺激。(他们使用鼓槌，因为它提供了产生声音的一致方式。)

接下来，团队将这些视频提供给深度学习算法，该算法解构了声音并分析了它们的音高，响度和其他特征。

“为了预测新视频的声音，该算法会查看该视频每帧的声音属性，并将它们与数据库中最相似的声音相匹配，”欧文斯说。“一旦系统具有这些音频，它就会将它们拼接在一起，形成一个连贯的声音。”

结果是该算法可以准确地模拟不同命中的微妙之处，从岩石的断断点到常见的沙沙作响。音高也没有问题，因为它可以合成声音，从软沙发的低音“砰”声到硬木栏杆的高音调“咔嗒声”。

“人工智能的当前方法只关注五种感知方式中的一种，视觉研究人员使用图像，语音研究人员使用音频，等等，”卡内基梅隆大学机器人助理教授Abhinav Gupta表示，他没有参与研究。“通过整合声音和视觉，本文是朝着模仿人类学习方式的正确方向迈出的一步。”

这项工作的另一个好处是该团队的46,000个声音库是免费的，可供其他研究人员使用。数据集的名称：“Greatest Hits。”

为了测试虚假声音的真实程度，该团队进行了一项在线研究，其中受试者看到两个碰撞视频 - 一个是实际录制的声音，另一个是算法的 - 并被问到哪一个是真实的。

结果：受试者在真实的声音上选择假声音的频率是基线算法的两倍。他们特别被诸如树叶和泥土之类的材料所愚弄，这些材料往往比木材或金属具有更少“干净”的声音。

最重要的是，该团队发现材料的声音揭示了其物理特性的关键方面：他们开发的算法可以在67%的时间内分辨出硬质和软质材料之间的差异。

该团队的工作与最近的CSAIL音频和视频放大研究一致。Freeman已经帮助开发了一种算法，可以放大肉眼看不到的视频捕获的动作，这使得他的团队可以做一些事情，比如让人类脉搏可见，甚至只用马铃薯片袋的视频来恢复语音。

研究人员表示，仍有改进系统的空间。例如，如果鼓槌在视频中特别不规律地移动，则算法更可能错过或幻觉错误命中。它还受到以下事实的限制：它仅适用于“视觉指示的声音” - 由视频中描绘的物理交互直接引起的声音。

“从轻柔的风吹到笔记本电脑的嗡嗡声，在任何特定的时刻，都有如此多的环境声音与我们实际看到的无关，”欧文斯说。“真正令人兴奋的是以某种方式模拟与视觉效果不太直接相关的声音。”

该团队认为，该领域未来的工作可以提高机器人与周围环境互动的能力。

欧文斯说：“一个机器人可以看到一条人行道，本能地知道水泥很硬，草很柔软，因此知道如果他们踩到其中任何一个会发生什么。” “能够预测声音是预测与世界物理互动的后果的重要的第一步。”

这项工作部分由科学基金会和壳牌公司资助。Owens也得到了微软研究奖学金的支持。

标签：