您现在的位置是:首页 > 要闻 > 正文
研究人员详细介绍了使攻击者能够窃取强化学习算法的技术
发布时间:2022-04-13 22:06:02编辑:来源:
南洋理工大学的一组研究人员声称,用于预测蛋白质形状和教机器人抓取物体的深度强化学习(DRL)算法容易受到对抗性攻击,从而可以提取和复制蛋白质,从而使恶意行为者能够“窃取”它们。在这篇预印的论文中,共同作者描述了一种用于输入和操作未公开的黑盒模型的技术,据说该技术能够以“[非常]高保真度”恢复DRL模型。
DRL可以处理复杂的任务和环境的相互作用,所以它得到了一些好处。它结合深度学习架构和强化学习算法构建复杂策略,从而了解环境的上下文(状态)并做出最佳决策(动作)。然而,随着DRL进入越来越多的商业产品,如Mobileye和Wayve的高级驾驶员辅助系统,它可能会成为针对知识产权盗窃或潜在有害逆向工程的对手的目标。
研究人员的方法假设目标DRL的域(即模型正在执行的任务、输入和输出的上下文和格式)是已知的,攻击者可以设置环境状态并观察DRL模型的相应动作。他们的攻击分为两个阶段:
分类器根据给定黑盒DRL模型的动作序列预测其训练算法。
通过提取的算法,模仿学习方法可以生成和微调与目标行为相似的模型。
首先,基于算法在大量“阴影”DRL模型上训练分类器。分类器在多个环境中为每个算法训练DRL模型,并通过使用包括所有考虑中的算法的多样化池来评估其性能。然后,它收集性能最好的模型的状态动作序列,生成样本(由序列表征并由训练算法标记),并将提取的模型传递给第二阶段进行细化。
第二阶段(模仿学习阶段)采用GAIL,这是一种无模型的学习算法,可以在大规模、高维环境下模仿复杂行为。在仿真过程中,构造了两个相互竞争的模型:带提取算法的生成DRL模型和判别模型。生成的模型将根据反馈迭代优化其参数,直到生成的数据无法与目标模型区分,并且该过程将重复,直到获得与目标模型具有相似性能的模型。
在实验中,研究人员将他们的方法应用于OpenAI健身房软件中的两个流行的基准测试:Cart-Pole和AtariPong。对于每个环境,他们选择了50个训练有素的模型,产生了250个训练有素的DRL模型和12500个动作序列。
他们发现分类器以相对较高的置信度区分每个算法的DRL模型,置信度从54%(在Cart-Pole中)到100%(在AtariPong中)。对于模仿学习阶段,它尝试使用与目标模型性能相似的相同算法来复制模型,尤其是在Cart-Pole中。研究人员写道:“当复制的模型具有与目标模型相同的训练算法时,[攻击]的成功率将会增加。”“我们希望这项研究能够激发人们对DRL模型隐私问题严重性的认识,并提出更好的解决方案来缓解此类模型攻击。”
标签:
猜你喜欢
最新文章
- DeepSeek公告:线上服务遭大规模恶意攻击,暂限非+86手机号注册
- IGN揭秘《刺客信条:影》新实机演示:主角形象深入人心!
- 焕新登场:全新起亚K4紧凑型车图解赏析
- 重庆:2025年将持续推进163项城中村改造项目
- 蔚来乐道春节期间暂停车机升级,2月6日恢复推送服务
- 超有牌面!国产游戏《明末:渊虚之羽》登上英国《EDGE》杂志封面,漫画风女侠惊艳亮相
- 币界网晚间行情速递:BTC比特币报价$103,391.48,日内微跌1.04%
- 暗区突围:全面转载新手必备攻略
- 未来人生:个人满级天赋展示与深度评价(五)
- 探索功夫英雄的奇妙世界:玩法特色与剧情概览
- 最后一波福利!速来领取《黑神话:悟空》限定红包封面!
- 《暗黑4》Steam史无前例大促:标准版仅售191.4元,速来抢购!
- 广东:2027年目标全面构建绿色低碳循环经济体系
- 金价飙升,直逼840元大关!黄金店铺春节延期休假,蛇金饰品与足金手机贴受热捧!
- 《宝可梦卡牌P》新扩展包时空激战1月30日震撼发布,帝牙卢卡荣耀参战
- 截至今晨7点,全国172个公路路段受雨雪寒潮侵袭影响
- 币界网晚间行情速递:DOT波卡币攀升至6.446美元/枚,日内涨幅达2.01%
- 《龙腾世纪4》销量惨淡致EA股价暴跌21.25%!市场反应强烈
- 比亚迪海豹汽车OTA升级:全新引入城市领航功能等重磅更新
- 特朗普透露或于30日天内决断TikTok命运
- 10亿基金助力,中部城市赣州抢占人形机器人产业先机
- 《蛋仔派对》服务器崩溃引发玩家不满,官方深夜致歉并修复问题
- Stellantis重启美国贝尔维迪尔工厂,千余员工将重返岗位
- 一鸣食品全资子公司增资扩建:1.32亿打造4500头规模繁育基地