您现在的位置是:首页 > 互联网 > 正文
亚马逊的AI使用麦克风阵列来定位房间中的多个扬声器
发布时间:2024-07-16 16:08:41编辑:来源:
在预定于下个月在国际声学,语音和信号处理国际会议(ICASSP)上发表的技术论文中,一组亚马逊研究人员提出了一种AI驱动的方法来进行多源本地化,或者是估计声音质量的问题。使用麦克风音频定位。他们说,在涉及真实和模拟数据(前者来自AV16.3语料库)和多达三个同时活动的声源的实验中,与最新的信号相比,该方法显示出将近15%的改进,处理模型。
解决多源本地化问题是开发足够强大的智能扬声器,智能显示器甚至视频会议软件的必不可少的步骤。这是因为它是波束赋形的核心,它是一种将信号(在这种情况下为声音)聚焦到接收设备(麦克风)的技术。亚马逊自己的Echo系列产品利用波束赋形来提高语音识别的准确性,谷歌的Nest Hub和苹果的HomePod也是如此。
朝向麦克风阵列传播的声音将在不同的时间到达每个麦克风,这种现象可被用来查明声源的位置。对于单个声源,计算相对简单,但是对于多个声源,计算却成倍地复杂。
已经提出了针对多源本地化问题的各种AI和机器学习解决方案,但其中许多都有局限性。
当可能的声音数量超过模型输出的数量时,可能会怀疑哪个声音对应哪个输出。例如,如果模型学习将一组坐标与一个说话者关联,并将另一组坐标与两个其他说话者关联,则不清楚当另外两个说话者同时讲话时哪个输出与哪个说话者关联。一种解决方案是将麦克风阵列周围的空间表示为3D网格,从而在给定一组输入信号的情况下,使模型能够输出一种声音源自每个网格点的概率。但这具有主要缺点,其中主要的困难在于本地化离网资源,创建包含每个点的所有声音组合的语料库以及提高超出网格分辨率的准确性的困难。
亚马逊团队的模型首先将声音定位到粗略定义的区域,然后将声音精确地定位在这些区域内。如果它包含至少一个源,则认为该区域处于活动状态,并且假定在任何活动区域中最多可以有一个活动源。因为每个粗略区域在模型的输出层中都有一组指定的节点,所以对于给定区域中的哪个声源与位置估计相关联不会有任何歧义。
对于每个区域,模型都会计算该区域包含一个源的概率,以及源与麦克风阵列中心之间的距离以及源相对于阵列的角度。它从麦克风中摄取多通道原始音频,并输出上述三个量,从而是端到端的—该模型处理原始音频,从而避免了预处理或后处理的需要。
标签:
猜你喜欢
最新文章
- DeepSeek公告:线上服务遭大规模恶意攻击,暂限非+86手机号注册
- IGN揭秘《刺客信条:影》新实机演示:主角形象深入人心!
- 焕新登场:全新起亚K4紧凑型车图解赏析
- 重庆:2025年将持续推进163项城中村改造项目
- 蔚来乐道春节期间暂停车机升级,2月6日恢复推送服务
- 超有牌面!国产游戏《明末:渊虚之羽》登上英国《EDGE》杂志封面,漫画风女侠惊艳亮相
- 币界网晚间行情速递:BTC比特币报价$103,391.48,日内微跌1.04%
- 暗区突围:全面转载新手必备攻略
- 未来人生:个人满级天赋展示与深度评价(五)
- 探索功夫英雄的奇妙世界:玩法特色与剧情概览
- 最后一波福利!速来领取《黑神话:悟空》限定红包封面!
- 《暗黑4》Steam史无前例大促:标准版仅售191.4元,速来抢购!
- 广东:2027年目标全面构建绿色低碳循环经济体系
- 金价飙升,直逼840元大关!黄金店铺春节延期休假,蛇金饰品与足金手机贴受热捧!
- 《宝可梦卡牌P》新扩展包时空激战1月30日震撼发布,帝牙卢卡荣耀参战
- 截至今晨7点,全国172个公路路段受雨雪寒潮侵袭影响
- 币界网晚间行情速递:DOT波卡币攀升至6.446美元/枚,日内涨幅达2.01%
- 《龙腾世纪4》销量惨淡致EA股价暴跌21.25%!市场反应强烈
- 比亚迪海豹汽车OTA升级:全新引入城市领航功能等重磅更新
- 特朗普透露或于30日天内决断TikTok命运
- 10亿基金助力,中部城市赣州抢占人形机器人产业先机
- 《蛋仔派对》服务器崩溃引发玩家不满,官方深夜致歉并修复问题
- Stellantis重启美国贝尔维迪尔工厂,千余员工将重返岗位
- 一鸣食品全资子公司增资扩建:1.32亿打造4500头规模繁育基地