您现在的位置是:首页 > 要闻 > 正文
脸书的RIDE鼓励人工智能代理探索他们的环境
发布时间:2022-04-12 10:46:02编辑:来源:
这篇预印的论文由脸书人工智能研究所的科学家合著,描述了奖励影响驱动探索(RIDE),这是一种内在的奖励方法,鼓励人工智能驱动的代理在环境中采取行动。研究人员表示,在生成程序的世界中,它在艰巨的探索任务中表现优于最新技术,这表明它可能成为机器人吸尘器等经常在新环境中导航的设备的候选。
正如研究人员解释的那样,强化学习的目的是鼓励人们通过奖励系统完成任务,并通过反复试验学会在新环境中采取行动。但是很多有趣的环境(尤其是更接近实际问题的环境)并不能为代理人提供稳定的学习奖励,所以需要大量的剧情才能为代理人获得奖励。
然后,研究人员提出的解决方案——RIDE——敦促代理尝试对环境有很大影响的行为。
该团队通过开源工具MiniGrid在程序生成环境中评估了RIDE,在MiniGrid中,世界是一个部分可观察的网格,网格中的每个块最多包含一个离散的颜色对象(墙、门、键、球、框或目标)。此外,他们在VizDoom(基于Doom进行强化学习的AI研究平台)中分配了导航级别的任务。虽然VizDoom在外观上比MiniGrid更复杂,但它们都是具有挑战性的领域,因为从外部奖励中随机跳闸的可能性极低。
研究人员报告称,与基线算法相比,RIDE认为有些状态即使经过长时间的训练,并且在过去看到过类似的状态,或者学会了几乎完全预测一个子状态中的下一个状态,也可以被视为“新奇”或“令人惊讶”。环境因此,其内部奖励不会在培训过程中减少。代理试图区分导致新的或令人惊讶的状态的行为和没有导致新的或令人惊讶的状态的行为,并避免陷入某些状态空间。
该研究的合著者写道:“RIDE有许多理想的特征。”“它可以将特工吸引到可能影响环境的国家,即使经过长时间的训练,也可以向特工提供信号。它在概念上很简单,并且与其他内部或外部奖励以及任何深度[强化学习]算法兼容.此外,在探索程序生成环境方面,RIDE比其他探索方法更有效。”
他们会用符号信息来衡量代理人的影响力或考虑代理人行为的长期影响,从而改进RIDE未来的工作。他们还希望研究能够区分预期和意外影响类型的算法,有效约束代理安全行动,避免分心。
标签:
猜你喜欢
最新文章
- DeepSeek公告:线上服务遭大规模恶意攻击,暂限非+86手机号注册
- IGN揭秘《刺客信条:影》新实机演示:主角形象深入人心!
- 焕新登场:全新起亚K4紧凑型车图解赏析
- 重庆:2025年将持续推进163项城中村改造项目
- 蔚来乐道春节期间暂停车机升级,2月6日恢复推送服务
- 超有牌面!国产游戏《明末:渊虚之羽》登上英国《EDGE》杂志封面,漫画风女侠惊艳亮相
- 币界网晚间行情速递:BTC比特币报价$103,391.48,日内微跌1.04%
- 暗区突围:全面转载新手必备攻略
- 未来人生:个人满级天赋展示与深度评价(五)
- 探索功夫英雄的奇妙世界:玩法特色与剧情概览
- 最后一波福利!速来领取《黑神话:悟空》限定红包封面!
- 《暗黑4》Steam史无前例大促:标准版仅售191.4元,速来抢购!
- 广东:2027年目标全面构建绿色低碳循环经济体系
- 金价飙升,直逼840元大关!黄金店铺春节延期休假,蛇金饰品与足金手机贴受热捧!
- 《宝可梦卡牌P》新扩展包时空激战1月30日震撼发布,帝牙卢卡荣耀参战
- 截至今晨7点,全国172个公路路段受雨雪寒潮侵袭影响
- 币界网晚间行情速递:DOT波卡币攀升至6.446美元/枚,日内涨幅达2.01%
- 《龙腾世纪4》销量惨淡致EA股价暴跌21.25%!市场反应强烈
- 比亚迪海豹汽车OTA升级:全新引入城市领航功能等重磅更新
- 特朗普透露或于30日天内决断TikTok命运
- 10亿基金助力,中部城市赣州抢占人形机器人产业先机
- 《蛋仔派对》服务器崩溃引发玩家不满,官方深夜致歉并修复问题
- Stellantis重启美国贝尔维迪尔工厂,千余员工将重返岗位
- 一鸣食品全资子公司增资扩建:1.32亿打造4500头规模繁育基地