您现在的位置是:首页 > 要闻 > 正文
亚马逊的X-Transformer解决了产业规模的文本分类问题
发布时间:2022-04-14 08:30:01编辑:来源:
在Arxiv.org发表的预印本中,来自亚马逊、卡耐基梅隆大学和德克萨斯大学奥斯汀分校的研究人员描述了X-Transformer,这是一种调整语言算法以解决从大数据集返回标签问题的方法。他们说,它已经在几个基准和亚马逊的产品查询数据集上取得了最新的结果。
X-Transformer的目标是研究人员所说的“极端”多标签文本分类(XMC):给定一个输入文本实例,它将尝试从集合中返回最相关的标签,其中标签的数量可能在数百万(或更多)。XMC本质上是一个工业规模的文本分类挑战。除了缺乏训练数据,这个挑战还需要克服硬件限制。
这位合著者写道:“亚马逊面临的很多问题,相当于从潜在候选人的巨大输出空间中找到相关结果:比如,向在亚马逊上开始新广告系列的广告商建议关键词,并根据客户之前键入的查询预测他们接下来将键入的查询。“关键词推荐系统为广告商提供用于创建广告系列的关键词建议.……XMC模型在接受来自产品查询数据集(如产品查询客户购买记录)的培训后,可以使用产品信息来建议与任何给定产品相关的查询,如标题、描述或[或]品牌。”
X-Transformer基于Google现有的Transformer架构,由语义标签索引组件、深度神经匹配组件和整体排名组件组成。语义标签索引通过一个称为标签聚类的过程将原始的XMC问题分解成一组子问题。接下来,深度神经匹配组件为由SLI引起的每个XMC子问题微调Transformer模型。然后,利用综合排名组件对每个子问题的得分进行组合,进一步提高理论上的性能。
在实验中,研究人员声称,提出的X-Transformer在四个XMC基准上实现了最新的技术成果,并导致了真假XMC应用的改进。
例如,在拥有50万个标签的维基百科数据集上,X-Transformer的“prec@1”(一个指示排名最高的文档的相关性的索引)为77.28%,与完美的分层标签树方法Parabel(高达68.70%)和竞争机器学习方法AttentionXML(76.95%)相比。当内部数据集Prod2Query-1M应用于Prod2Query-1M时,数据集由Amazon.com的1400万个产品和100万个标签(查询)组成,与Parabel相比提高了10.7%。
X-Transformer数据集、代码和模型可以从GitHub上的开源代码中获得。
标签:
猜你喜欢
最新文章
- DeepSeek公告:线上服务遭大规模恶意攻击,暂限非+86手机号注册
- IGN揭秘《刺客信条:影》新实机演示:主角形象深入人心!
- 焕新登场:全新起亚K4紧凑型车图解赏析
- 重庆:2025年将持续推进163项城中村改造项目
- 蔚来乐道春节期间暂停车机升级,2月6日恢复推送服务
- 超有牌面!国产游戏《明末:渊虚之羽》登上英国《EDGE》杂志封面,漫画风女侠惊艳亮相
- 币界网晚间行情速递:BTC比特币报价$103,391.48,日内微跌1.04%
- 暗区突围:全面转载新手必备攻略
- 未来人生:个人满级天赋展示与深度评价(五)
- 探索功夫英雄的奇妙世界:玩法特色与剧情概览
- 最后一波福利!速来领取《黑神话:悟空》限定红包封面!
- 《暗黑4》Steam史无前例大促:标准版仅售191.4元,速来抢购!
- 广东:2027年目标全面构建绿色低碳循环经济体系
- 金价飙升,直逼840元大关!黄金店铺春节延期休假,蛇金饰品与足金手机贴受热捧!
- 《宝可梦卡牌P》新扩展包时空激战1月30日震撼发布,帝牙卢卡荣耀参战
- 截至今晨7点,全国172个公路路段受雨雪寒潮侵袭影响
- 币界网晚间行情速递:DOT波卡币攀升至6.446美元/枚,日内涨幅达2.01%
- 《龙腾世纪4》销量惨淡致EA股价暴跌21.25%!市场反应强烈
- 比亚迪海豹汽车OTA升级:全新引入城市领航功能等重磅更新
- 特朗普透露或于30日天内决断TikTok命运
- 10亿基金助力,中部城市赣州抢占人形机器人产业先机
- 《蛋仔派对》服务器崩溃引发玩家不满,官方深夜致歉并修复问题
- Stellantis重启美国贝尔维迪尔工厂,千余员工将重返岗位
- 一鸣食品全资子公司增资扩建:1.32亿打造4500头规模繁育基地