您现在的位置是:首页 > 要闻 > 正文
通过人类婴儿的行为改善机器学习的技术
发布时间:2022-04-15 11:54:02编辑:来源:
人类从生命的最初几年开始,就具有持续学习的先天能力,通过观察周围的事物或与之互动的人来构建世界的心理模型。认知心理学研究表明,人类广泛使用这种先前获得的知识,尤其是在遇到新情况或做出决策时。
虽然最近人工智能(AI)领域取得了很大的进展,但大多数虚拟代理仍然需要数百小时的训练才能在多个任务中达到人类级别的性能,人类可以在几个小时甚至更短的时间内学会完成这些任务。最近的研究强调了人类获得知识能力的两个关键因素——直觉物理学和直觉心理学。
这些直观的模型在人类发展的早期就已经被观察到,可能是未来学习的核心推动者。基于这一想法,韩国先进科学技术研究所(KAIST)的研究人员最近开发了一种内在奖励归一化方法,该方法允许AI代理选择最能改善其直观模型的行为。在他们提前发表在arXiv上的论文中,研究人员提出了一种图形物理网络,它与深度强化学习相结合,并受到人类婴儿学习行为的启发。
研究人员在他们的论文中解释说:“想象一个人类婴儿在一个房间里,玩具周围有一段可接近的距离。”“他们不断地抓住、投掷物体并对其采取行动;有时他们会观察自己行为的后果,但有时他们会失去兴趣,转向另一个对象。”作为科学家,儿童的观点表明,人类婴儿天生就有动机进行自己的实验,发现更多的信息,最终学会区分不同的物体,创造更丰富的内部表征。"
心理学研究表明,在生命的最初几年,人类不断尝试周围的环境,这使他们能够对世界形成重要的认识。此外,当儿童观察到的结果没有达到他们以前的预期(称为预期的侵犯行为)时,通常会鼓励他们进一步尝试,以更好地了解自己的情况。
KAIST的研究团队试图使用强化学习方法在AI代理中重现这些行为。在他们的研究中,他们首先引入了一种图形物理网络,可以提取物体之间的物理关系,并预测它们在三维环境中的后续行为。随后,他们将网络与深度强化学习模型相结合,引入了内在奖励标准化技术,并鼓励人工智能代理探索和识别将不断改进其直观模型的行为。
研究人员使用3D物理引擎证明,他们的图形物理网络可以有效地推断不同物体的位置和速度。他们还发现,他们的方法允许深度强化学习网络不断改进其直观模型,并鼓励其仅基于内在动机与对象进行交互。
在一系列评估中,该团队研究人员设计的新技术取得了非凡的准确性,AI代理执行了大量不同的探索动作。未来,它可以为机器学习工具的发展提供信息,可以更快、更有效地从过去的经验中学习。
研究人员在他们的论文中解释说:“我们在各种场景中用固定和非固定问题测试了我们的网络,在这些场景中,球形物体具有不同的质量和半径。”“我们希望这些预先训练好的直观模型能够作为其他目标导向任务的先验知识,例如ATARI游戏或视频预测。”
标签:
猜你喜欢
最新文章
- DeepSeek公告:线上服务遭大规模恶意攻击,暂限非+86手机号注册
- IGN揭秘《刺客信条:影》新实机演示:主角形象深入人心!
- 焕新登场:全新起亚K4紧凑型车图解赏析
- 重庆:2025年将持续推进163项城中村改造项目
- 蔚来乐道春节期间暂停车机升级,2月6日恢复推送服务
- 超有牌面!国产游戏《明末:渊虚之羽》登上英国《EDGE》杂志封面,漫画风女侠惊艳亮相
- 币界网晚间行情速递:BTC比特币报价$103,391.48,日内微跌1.04%
- 暗区突围:全面转载新手必备攻略
- 未来人生:个人满级天赋展示与深度评价(五)
- 探索功夫英雄的奇妙世界:玩法特色与剧情概览
- 最后一波福利!速来领取《黑神话:悟空》限定红包封面!
- 《暗黑4》Steam史无前例大促:标准版仅售191.4元,速来抢购!
- 广东:2027年目标全面构建绿色低碳循环经济体系
- 金价飙升,直逼840元大关!黄金店铺春节延期休假,蛇金饰品与足金手机贴受热捧!
- 《宝可梦卡牌P》新扩展包时空激战1月30日震撼发布,帝牙卢卡荣耀参战
- 截至今晨7点,全国172个公路路段受雨雪寒潮侵袭影响
- 币界网晚间行情速递:DOT波卡币攀升至6.446美元/枚,日内涨幅达2.01%
- 《龙腾世纪4》销量惨淡致EA股价暴跌21.25%!市场反应强烈
- 比亚迪海豹汽车OTA升级:全新引入城市领航功能等重磅更新
- 特朗普透露或于30日天内决断TikTok命运
- 10亿基金助力,中部城市赣州抢占人形机器人产业先机
- 《蛋仔派对》服务器崩溃引发玩家不满,官方深夜致歉并修复问题
- Stellantis重启美国贝尔维迪尔工厂,千余员工将重返岗位
- 一鸣食品全资子公司增资扩建:1.32亿打造4500头规模繁育基地