您现在的位置是:首页 > 科技 > 正文
人工智能产生逼真的声音 愚弄人类
发布时间:2024-06-14 06:55:12来源:
为了让机器人能够驾驭世界,他们需要能够对周围环境以及在一系列事件中可能发生的事情做出合理的假设。
人类学习这些东西的一种方式是通过声音。对于婴儿来说,戳戳和刺激物品不仅有趣; 一些研究表明,实际上他们是如何发展直觉物理学理论的。难道我们可以让机器以同样的方式学习吗?
来自麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员已经演示了一种有效学习如何预测声音的算法:当显示被击中物体的无声视频片段时,该算法可以产生足够逼真的击打声音愚弄人类观众。
这种“声音图灵测试”不仅仅是一个聪明的计算机技巧:研究人员设想未来版本的类似算法可用于自动为电影和电视节目制作声音效果,以及帮助机器人更好地理解物体的属性。
“当你用手指划过酒杯时,它所产生的声音反映出它中含有多少液体,”CSAIL博士生安德鲁欧文斯说道,他是即将发表的一篇描述这项工作的论文的第一作者。“模拟这种声音的算法可以揭示关于物体形状和材料类型的关键信息,以及它们与世界相互作用的力量和运动。”
该团队使用了“深度学习”领域的技术,这些技术涉及教授计算机筛选大量数据以自行查找模式。深度学习方法特别有用,因为它们使计算机科学家不必手动设计算法并监督他们的进度。
该论文的共同作者包括最近的博士毕业生Phillip Isola和麻省理工学院教授Edward Adelson,Bill Freeman,Josh McDermott和Antonio Torralba。本文将于本月晚些时候在拉斯维加斯举行的计算机视觉和模式识别年会(CVPR)上发表。
训练声音产生算法的第一步是让它听起来有效。几个月以来,研究人员记录了大约1,000个视频,估计有46,000个声音代表各种物体被击打,刮擦和用鼓棒刺激。(他们使用鼓槌,因为它提供了产生声音的一致方式。)
接下来,团队将这些视频提供给深度学习算法,该算法解构了声音并分析了它们的音高,响度和其他特征。
“为了预测新视频的声音,该算法会查看该视频每帧的声音属性,并将它们与数据库中最相似的声音相匹配,”欧文斯说。“一旦系统具有这些音频,它就会将它们拼接在一起,形成一个连贯的声音。”
结果是该算法可以准确地模拟不同命中的微妙之处,从岩石的断断点到常见的沙沙作响。音高也没有问题,因为它可以合成声音,从软沙发的低音“砰”声到硬木栏杆的高音调“咔嗒声”。
“人工智能的当前方法只关注五种感知方式中的一种,视觉研究人员使用图像,语音研究人员使用音频,等等,”卡内基梅隆大学机器人助理教授Abhinav Gupta表示,他没有参与研究。“通过整合声音和视觉,本文是朝着模仿人类学习方式的正确方向迈出的一步。”
这项工作的另一个好处是该团队的46,000个声音库是免费的,可供其他研究人员使用。数据集的名称:“Greatest Hits。”
为了测试虚假声音的真实程度,该团队进行了一项在线研究,其中受试者看到两个碰撞视频 - 一个是实际录制的声音,另一个是算法的 - 并被问到哪一个是真实的。
结果:受试者在真实的声音上选择假声音的频率是基线算法的两倍。他们特别被诸如树叶和泥土之类的材料所愚弄,这些材料往往比木材或金属具有更少“干净”的声音。
最重要的是,该团队发现材料的声音揭示了其物理特性的关键方面:他们开发的算法可以在67%的时间内分辨出硬质和软质材料之间的差异。
该团队的工作与最近的CSAIL音频和视频放大研究一致。Freeman已经帮助开发了一种算法,可以放大肉眼看不到的视频捕获的动作,这使得他的团队可以做一些事情,比如让人类脉搏可见,甚至只用马铃薯片袋的视频来恢复语音。
研究人员表示,仍有改进系统的空间。例如,如果鼓槌在视频中特别不规律地移动,则算法更可能错过或幻觉错误命中。它还受到以下事实的限制:它仅适用于“视觉指示的声音” - 由视频中描绘的物理交互直接引起的声音。
“从轻柔的风吹到笔记本电脑的嗡嗡声,在任何特定的时刻,都有如此多的环境声音与我们实际看到的无关,”欧文斯说。“真正令人兴奋的是以某种方式模拟与视觉效果不太直接相关的声音。”
该团队认为,该领域未来的工作可以提高机器人与周围环境互动的能力。
欧文斯说:“一个机器人可以看到一条人行道,本能地知道水泥很硬,草很柔软,因此知道如果他们踩到其中任何一个会发生什么。” “能够预测声音是预测与世界物理互动的后果的重要的第一步。”
这项工作部分由科学基金会和壳牌公司资助。Owens也得到了微软研究奖学金的支持。
标签:
猜你喜欢
- ipad4怎么下载软件(iPad4怎么下载软件)
- Apple Watch Series 5具有永不在线的显示屏 并采用钛金属或陶瓷表面处理
- Infosys希望在20财年节省100-1.5亿美元公司确认没有解雇现有员工的计划
- 佳能二倍增距镜适用哪些镜头(佳能2倍增距镜拍摄效果怎么样)
- Google本周初发布了Android OS的新更新为Pixel手机带来了Camera app 7.2
- 华硕笔记本哪个型号性价比最高(华硕笔记本哪个性价比最高)
- 谷歌发布Android 10手机改进的前8种方式
- Vodafone RedX计划每月收费999卢比它提供了50%的更快数据速度以及通话优势
- Google Nest Hub将显示触摸控件以感应附近是否有人
- nv显卡哪个型号最好(NV帕斯卡显卡有哪些型号)
最新文章
- 面对常见九类违法犯罪你该怎么做? 到底什么情况嘞
- 成都小伙村里拍老人40万网友爆笑爆哭催更 到底什么情况嘞
- 杭州通报4起违规吃喝典型问题 到底什么情况嘞
- 全国人大常委会关于实施渐进式延迟法定退休年龄的决定 到底什么情况嘞
- 月满团圆乐动中秋!
- 大学生每月生活费1500元够吗?
- 僧籍(关于僧籍的简介)
- #鸡有几个胃# ?
- #河南高校手绘地图迎新生很哇塞#[憧憬]
- #你还会买实体书吗#
- 僧稠丧事诏(关于僧稠丧事诏的简介)
- 太酷了! #C919披上了五星红旗#
- #处暑已至# 秋意渐浓
- 僧稠(关于僧稠的简介)
- #不直播的李佳琦们都去哪里捞金了#
- 僧祗户(关于僧祗户的简介)
- #你一般喝什么价格的奶茶?#
- 僧祖可(关于僧祖可的简介)
- 僧祐(关于僧祐的简介)
- 僧祇粟(关于僧祇粟的简介)
- 僧祇支(关于僧祇支的简介)
- 冲锋在“反诈第一线”的“小店” 让人心里一暖 到底什么情况嘞
- 月满团圆乐动中秋!
- 大学生每月生活费1500元够吗?