您现在的位置是:首页 > 要闻 > 正文
脸书声称wav2vec 2.0有10分钟的标签数据
发布时间:2022-04-14 01:42:02编辑:来源:
在印前服务器Arxiv.org上发表的一篇论文中,脸书的研究人员描述了wav2vec2.0,这是一种改进的自监督语音识别框架。他们声称,这第一次证明了从发音中学习表征,然后对转录后的发音进行微调,可以超越最好的半监督方法,同时,概念更简单,只需10分钟就可以得到最新的结果。标记数据并对53,000小时的未标记数据进行预培训。
人工智能模型受益于大量有标签的数据——这是它们学习如何推断模式和做出预测的方式。然而,就像论文的合著者一样,标记数据通常比未标记数据更难获得。目前的语音识别系统需要数千小时来转录语音,以达到可接受的性能,但世界上近7000种语言中的大多数都无法使用。脸书最初的wav2vec和其他系统试图通过自我监控来避免这种情况,这种监控会根据数据自动生成标签。然而,与半监督方法相比,它们在性能上有一些缺点。半监督方法在训练过程中结合了少量的已标记数据和大量的未标记数据。
从表面上看,Wav2vec2.0桥接了编码器模块的间隙,编码器模块获取原始音频并输出语音表示,然后将这些语音表示提供给Transformer,以确保这些表示捕获整个音频序列信息。Transformer网络架构是谷歌研究人员在2017年创建的,最初是作为一种改进机器翻译的方法而设计的。因此,它用注意函数代替递归神经网络来预测序列中的下一步。该特性使wav2vec2.0能够在连续语音表示的基础上构建上下文表示,并记录音频序列端到端的统计相关性。
为了预训练wav2vec2.0,研究人员屏蔽了一些语音表达(约占所有时间步长的49%,平均跨度为299毫秒),并要求系统正确预测。然后,为了对其进行微调以进行语音识别,他们在wav2vec2.0上添加了一个投影,该投影以字符和单词边界(例如,英语书面单词的单词空间)标记的形式表示词汇,然后在训练过程中执行额外的掩蔽。
共同作者在128个NvidiaV100显卡上对wav2vec2.0进行了5.2天的多种未标记和未标记数据源的培训,以评估系统的性能。在8到24个显卡之间进行微调。
根据该团队的说法,在开源Librispeech语料库上,经过最大规模训练的wav2vec2.0模型(仅微调了10分钟的标记数据(48条记录,平均长度为12.5秒))的单词错误率达到了5.7。(这里的“单词错误率”是指错误数除以单词总数。在Librispeech的100小时子集中,同型号的错词率比上一级低2.3-45%。经过训练,标签数据减少了100倍——微调更多数据时减少了1.9倍。与依赖于更复杂架构的顶层半监督方法相比,这一结果具有竞争力。
研究人员写道:“[这表明超低资源语音识别可以通过对未标记数据的自监督学习来实现。”“我们已经证明,我们可以使用非常少量的带注释的数据来构建具有非常好准确性的语音识别模型。我们希望我们的工作将使语音识别技术在更多的语言和方言中得到更广泛的应用。”
脸书使用原始的wav2vec为关键词发现和语音事件检测提供更好的音频数据表示,并改进其系统以主动识别违反社区指导方针的帖子。Wav2vec2.0可应用于同一任务;此外,该公司表示,计划提供模型和代码来扩展其fairseq建模工具包。
标签:
猜你喜欢
最新文章
- DeepSeek公告:线上服务遭大规模恶意攻击,暂限非+86手机号注册
- IGN揭秘《刺客信条:影》新实机演示:主角形象深入人心!
- 焕新登场:全新起亚K4紧凑型车图解赏析
- 重庆:2025年将持续推进163项城中村改造项目
- 蔚来乐道春节期间暂停车机升级,2月6日恢复推送服务
- 超有牌面!国产游戏《明末:渊虚之羽》登上英国《EDGE》杂志封面,漫画风女侠惊艳亮相
- 币界网晚间行情速递:BTC比特币报价$103,391.48,日内微跌1.04%
- 暗区突围:全面转载新手必备攻略
- 未来人生:个人满级天赋展示与深度评价(五)
- 探索功夫英雄的奇妙世界:玩法特色与剧情概览
- 最后一波福利!速来领取《黑神话:悟空》限定红包封面!
- 《暗黑4》Steam史无前例大促:标准版仅售191.4元,速来抢购!
- 广东:2027年目标全面构建绿色低碳循环经济体系
- 金价飙升,直逼840元大关!黄金店铺春节延期休假,蛇金饰品与足金手机贴受热捧!
- 《宝可梦卡牌P》新扩展包时空激战1月30日震撼发布,帝牙卢卡荣耀参战
- 截至今晨7点,全国172个公路路段受雨雪寒潮侵袭影响
- 币界网晚间行情速递:DOT波卡币攀升至6.446美元/枚,日内涨幅达2.01%
- 《龙腾世纪4》销量惨淡致EA股价暴跌21.25%!市场反应强烈
- 比亚迪海豹汽车OTA升级:全新引入城市领航功能等重磅更新
- 特朗普透露或于30日天内决断TikTok命运
- 10亿基金助力,中部城市赣州抢占人形机器人产业先机
- 《蛋仔派对》服务器崩溃引发玩家不满,官方深夜致歉并修复问题
- Stellantis重启美国贝尔维迪尔工厂,千余员工将重返岗位
- 一鸣食品全资子公司增资扩建:1.32亿打造4500头规模繁育基地