您现在的位置是:首页 > 互联网 > 正文
IBM的AI执行最先进的广播新闻字幕
发布时间:2022-07-05 14:00:02编辑:来源:
两年前,IBM的研究人员通过在两个公共语音识别数据集上训练的机器学习系统声称具有最先进的转录性能,这比看起来更令人印象深刻。该AI系统必须抗衡,不仅在训练库的音频片段扭曲,但有一个范围讲风格,参与者之间重叠的讲话,中断,重新启动和交流。
为了追求一个更强大的系统,位于纽约Armonk的公司的研究人员最近设计了一个详细的架构(“人类和机器的英语广播新闻语音识别”),将在国际声学大会上发表。本周布莱顿的语音和信号处理。他们说,在初步实验中,它在广播新闻字幕任务方面取得了行业领先的成果。
达到这一点并不容易。该系统带来了一系列挑战,例如具有大量背景噪音的音频信号,以及讲述各种新闻主题的演示者。虽然大部分培训语料库的演讲都很清晰,但它包含了诸如现场采访,电视节目剪辑和其他多媒体内容等材料。
正如IBM研究员SamuelThomas在博客文章中所解释的那样,人工智能利用长期短期记忆(LSTM)-一种能够学习长期依赖性的算法-和声学神经网络语言模型以及互补语言模型的结合。。声学模型包含多达25层节点(模拟生物神经元的数学函数),在语音频谱图或信号频谱的视觉表示上进行训练,而六层LSTM网络学习了一组“丰富”的各种声学特征以增强语言建模。
在为整个系统提供1,300小时的广播新闻数据后,研究人员将AI放在包含两小时数据的测试集中,该数据联盟是一个支持语言相关的教育,研究和技术开发的国际非营利组织。显示共有近100个重叠的扬声器。(第二个测试集包含来自12个节目的4小时广播新闻数据,大约230个重叠的发言者。)该团队与语音和搜索技术公司Appen合作测量语音识别任务的识别错误率并报告系统达到6.5%第一个测试集和第二个测试集5.9%-比人类表现差一点,分别为3.6%和2.8%。
“[我们的]新结果......是我们对此任务所知的最低结果,[但]在这个领域仍有新技术和改进的空间,”托马斯写道。
标签:
猜你喜欢
最新文章
- DeepSeek公告:线上服务遭大规模恶意攻击,暂限非+86手机号注册
- IGN揭秘《刺客信条:影》新实机演示:主角形象深入人心!
- 焕新登场:全新起亚K4紧凑型车图解赏析
- 重庆:2025年将持续推进163项城中村改造项目
- 蔚来乐道春节期间暂停车机升级,2月6日恢复推送服务
- 超有牌面!国产游戏《明末:渊虚之羽》登上英国《EDGE》杂志封面,漫画风女侠惊艳亮相
- 币界网晚间行情速递:BTC比特币报价$103,391.48,日内微跌1.04%
- 暗区突围:全面转载新手必备攻略
- 未来人生:个人满级天赋展示与深度评价(五)
- 探索功夫英雄的奇妙世界:玩法特色与剧情概览
- 最后一波福利!速来领取《黑神话:悟空》限定红包封面!
- 《暗黑4》Steam史无前例大促:标准版仅售191.4元,速来抢购!
- 广东:2027年目标全面构建绿色低碳循环经济体系
- 金价飙升,直逼840元大关!黄金店铺春节延期休假,蛇金饰品与足金手机贴受热捧!
- 《宝可梦卡牌P》新扩展包时空激战1月30日震撼发布,帝牙卢卡荣耀参战
- 截至今晨7点,全国172个公路路段受雨雪寒潮侵袭影响
- 币界网晚间行情速递:DOT波卡币攀升至6.446美元/枚,日内涨幅达2.01%
- 《龙腾世纪4》销量惨淡致EA股价暴跌21.25%!市场反应强烈
- 比亚迪海豹汽车OTA升级:全新引入城市领航功能等重磅更新
- 特朗普透露或于30日天内决断TikTok命运
- 10亿基金助力,中部城市赣州抢占人形机器人产业先机
- 《蛋仔派对》服务器崩溃引发玩家不满,官方深夜致歉并修复问题
- Stellantis重启美国贝尔维迪尔工厂,千余员工将重返岗位
- 一鸣食品全资子公司增资扩建:1.32亿打造4500头规模繁育基地