您现在的位置是:首页 > 要闻 > 正文
Plan2Explore无需微调即可适应探索任务
发布时间:2022-04-13 01:08:01编辑:来源:
在本周发表在Arxiv.org预印服务器上的一篇论文中,与谷歌、微软、脸书、卡耐基梅隆大学、多伦多大学、宾夕法尼亚大学和加州大学伯克利分校相关的研究人员提出了Plan2Explore,这是一个自我监控的计划。使用规划来解决以前未知目标的人工智能。研究人员声称,在训练过程中不需要人工监督,即使没有任何特定的任务交互,也能胜过以前的方法。
像Plan2Explore这样的自监督学习算法通过暴露数据部分之间的关系来从数据中生成标签,这与在专家标注的数据集上训练的监督学习算法不同。他们观察世界并与之互动,主要是以与测试无关的方式,就像动物可能观察的那样。图灵奖得主约舒亚本吉奥和扬勒昆认为,自我监控是人类智能的关键,Plan2Explore将其付诸实践——它学会完成新任务,而无需对这些任务进行特殊训练。
Plan2Explore探索环境,并将其经验总结成一个表示,可以并行预测数千个场景。(一个场景描述了如果代理执行一系列动作会发生什么,例如左转进入走廊,然后穿过房间。给定这个世界模型,Plan2Explore使用DeepMind设计的梦想家来推导其行为。通过预先计划行动的长期结果来预先计划行动的算法。然后,Plan2Explore接收奖励函数(这些函数描述了AI的行为),以适应各种任务,如站立、行走和跑步,与特定任务的交互为零或很少。
为了确保其计算效率,Plan2Explore量化了其各种预测的不确定性。这鼓励系统在具有高不确定性的环境中寻找区域和轨迹,然后使用Plan2Explore来训练区域和轨迹以降低预测不确定性。重复此过程,以便Plan2Explore可以根据自己的预测轨迹进行优化。
在AIagent的仿真性能基准DeepMindControlSuite中的实验中,研究人员表示Plan2Explore无需使用特定目标的信息即可实现其目标——即只使用自我监控的世界模型,与外界没有任何新的交互世界。与以往领先的探索策略相比,Plan2Explore具有更好的性能,有时它是唯一成功的无监督方法。它证明了它的世界模型可以转移到同一个环境中的多个任务。在一个例子中,一个像猎豹一样的代理向后跑,向前翻,向后翻。
“强化学习可以解决复杂的任务;然而,学习通常是针对特定任务的,采样效率仍然是一个挑战。”合著者写道。“通过提出一种能够以可扩展和数据高效的方式学习许多不同任务的有效行为的方法,我们希望这项工作构成了构建可扩展的真实世界强化学习系统的一个步骤。”
GitHub提供了Plan2Explore的代码。
标签:
猜你喜欢
最新文章
- DeepSeek公告:线上服务遭大规模恶意攻击,暂限非+86手机号注册
- IGN揭秘《刺客信条:影》新实机演示:主角形象深入人心!
- 焕新登场:全新起亚K4紧凑型车图解赏析
- 重庆:2025年将持续推进163项城中村改造项目
- 蔚来乐道春节期间暂停车机升级,2月6日恢复推送服务
- 超有牌面!国产游戏《明末:渊虚之羽》登上英国《EDGE》杂志封面,漫画风女侠惊艳亮相
- 币界网晚间行情速递:BTC比特币报价$103,391.48,日内微跌1.04%
- 暗区突围:全面转载新手必备攻略
- 未来人生:个人满级天赋展示与深度评价(五)
- 探索功夫英雄的奇妙世界:玩法特色与剧情概览
- 最后一波福利!速来领取《黑神话:悟空》限定红包封面!
- 《暗黑4》Steam史无前例大促:标准版仅售191.4元,速来抢购!
- 广东:2027年目标全面构建绿色低碳循环经济体系
- 金价飙升,直逼840元大关!黄金店铺春节延期休假,蛇金饰品与足金手机贴受热捧!
- 《宝可梦卡牌P》新扩展包时空激战1月30日震撼发布,帝牙卢卡荣耀参战
- 截至今晨7点,全国172个公路路段受雨雪寒潮侵袭影响
- 币界网晚间行情速递:DOT波卡币攀升至6.446美元/枚,日内涨幅达2.01%
- 《龙腾世纪4》销量惨淡致EA股价暴跌21.25%!市场反应强烈
- 比亚迪海豹汽车OTA升级:全新引入城市领航功能等重磅更新
- 特朗普透露或于30日天内决断TikTok命运
- 10亿基金助力,中部城市赣州抢占人形机器人产业先机
- 《蛋仔派对》服务器崩溃引发玩家不满,官方深夜致歉并修复问题
- Stellantis重启美国贝尔维迪尔工厂,千余员工将重返岗位
- 一鸣食品全资子公司增资扩建:1.32亿打造4500头规模繁育基地