一个 AI 玩 41 个游戏,谷歌最新多游戏决策 Transformer 综合表现分是 DQN 的两倍
谷歌 AI 宣布,在多任务学习上取得了巨大进展:他们搞出一个会玩 41 款雅达利游戏的 AI,而且采用的新训练方法比起其他算法,训练效率大大提升!
此前会玩星际争霸的 CherryPi 和火出圈的 AlphaGo 都属于单游戏智能体(Agent),也就是说,一个 AI 只会玩一种游戏。多游戏智能体这边,现有的训练算法屈指可数:主要包括时间差分学习算法(Temporal Difference Learning,TD)和行为克隆(Behavioral Cloning,BC)等。
不过为了让一个智能体同时学会玩多款游戏,之前的这些方法的训练过程都很漫长。
现在,谷歌采用了一个新决策 Transformer 架构来训练智能体,能够在少量的新游戏数据上迅速进行微调,使训练速度变得更快,而且训练效果也是杠杠的 —— 该多游戏智能体玩 41 款游戏的表现综合得分,是 DQN 等其他多游戏智能体的 2 倍左右,甚至可以和只在单个游戏上训练的智能体媲美。
△ 100% 表示每款游戏的人类平均水平,灰色条代表单游戏智能体,蓝色条代表多游戏智能体
下面就来看看这个性能优秀的多游戏智能体。
新决策 Transformer 三大亮点
这个处理多款游戏学习的 Transformer,采用了一个将强化学习(Reinforcement Learning,RL)问题视为条件序列建模的架构,它根据智能体和环境之间过去的互动以及预期收益,来指导智能体的下一步活动。
说到强化学习,其讨论的主要问题是:在训练过程中,一个面对复杂环境的智能体,如何通过在每个 Time Step 里感知当前状态和 Reward 来指导下一步动作,以最终最大化累计收益(Return)。
传统的深度 RL 智能体(如 DQN、SimPLe、Dreamer 等)会学习一个策略梯度(Policy Gradient),让高 Reward 的轨迹出现概率变大,低 Reward 的轨迹出现概率变小。
这就导致它出现一些问题:即需要手动定义一个信息量很大的标量值范围,包含针对于每个特定游戏的适当信息。这是个相当浩大的工程,而且拓展性较差。
为了解决这个问题,谷歌团队提出了一个新方法。
训练纳入数据更多样化
谷歌的这个新决策 Transformer,把从入门玩家到高级玩家的经验数据都映射到相应的收益量级(Return Magnitude)中。开发者们认为,这样可以让 AI 模型更全面地“了解”游戏,从而让其更稳定并提高其玩游戏的水平。
他们根据智能体在训练期间与环境的互动,建立了一个收益的大小分布模型。在这个智能体玩游戏时,只需添加一个优化偏差来提升高 Reward 出现的概率。
此外,为了在训练期间更全面地捕捉智能体与环境互动的时空模式,开发者还将输入的全局图像改成了像素块,这样模型就可以关注局部动态,以掌握游戏相关的更多细节信息。
△ 决策 Transformer 基本架构示意图
可视化智能体训练过程
此外,开发者们还别出心裁地将智能体的行为可视化。然后他们发现,这个多游戏决策智能体一直都在关注着包含关键环境特征等重要信息的区域,而且它还可以“一心多用”:即同时关注多个重点。
△ 红色越亮表示智能体对那块像素的关注度越高
这种多样化注意力分配也提高了模型的性能。
拓展性更好
如今规模已成为许多机器学习相关突破的重要驱动力之一,而规模拓展一般是通过增加 Transformer 模型中的参数数量来实现的。研究者发现,这个多游戏决策 Transformer 也是类似的:随着规模扩大,和其他模型相比,其性能提升显著。
Facebook 也在研究决策 Transformer
谷歌 AI 使用决策 Transformer 不仅提高了 AI 玩多个游戏的水平,还提升了多游戏智能体的扩展性。
除此之外,据谷歌大脑、加州大学伯克利分校和 Facebook AI Research 合作的一篇论文介绍,决策 Transformer 架构在强化学习研究平台 OpenAI Gym 和 Key-to-Door 任务上也表现出色。
或许决策 Transformer 正是通用人工智能(AGI)发展的关键因素之一。
对了,谷歌 AI 表示,相关代码和 Checkpoint 会在 GitHub 上陆续开源,感兴趣的小伙伴们可以去看看~
传送门:
https://github.com/google-research/google-research/tree/master/multi_game_dt
参考链接:
[1]https://twitter.com/GoogleAI/status/1550260410686644224
[2]https://ai.googleblog.com/2022/07/training-generalist-agents-with-multi.html
[3]https://arxiv.org/abs/2106.01345
[4]https://zhuanlan.zhihu.com/p/354618420
相关文章
- 《GTA 5》游戏不兼容 Win11 24H2 企业 LTSC 版出现 0xc0000005 错误
- 卡面喜加一:华为钱包《地下城与勇士(DNF)》主题交通卡面上线
- 高通骁龙开发套件演示:可流畅运行《无主之地 3》,帧率超过 30FPS
- 绝地求生进不去游戏怎么解决(绝地求生登陆错误解决方法)
- windows10游戏录制怎么开启(windows10快速开启游戏录制的方法)
- switch体感游戏排行(目前最好的体感游戏盘点)
- 模拟经营类单机游戏推荐(经典好玩的游戏分享)
- 手机游戏排名大全(人气最高的游戏推荐)
- 枪战单机游戏大全(最新枪战游戏排行榜)
- 最新大型单机游戏电脑排名(适合一个人长期玩的单机手游)
- 哪些网页游戏好玩推荐(不氪金耐玩的良心手游)
- 游戏王十大最强卡组有哪些(分享游戏王官方公认最强神卡)
- 电脑游戏排行榜前十名免费游戏(2023年最火的网络游戏推荐)
- 角色扮演类游戏单机推荐(五大耐玩单机角色扮演)
- 现在什么网络游戏最火最好玩(打怪升级不花钱的手游)
- win11打游戏时输入法为什么闪退(win11打游戏时输入法闪退修复方法)
系统下载排行榜71011xp
番茄花园Win7 64位推荐旗舰版 V2021.05
2深度技术Win7 64位豪华旗舰版 V2021.07
3番茄花园Win7 64位旗舰激活版 V2021.07
4带USB3.0驱动Win7镜像 V2021
5系统之家 Ghost Win7 64位 旗舰激活版 V2021.11
6萝卜家园Win7 64位旗舰纯净版 V2021.08
7技术员联盟Win7 64位旗舰激活版 V2021.09
8雨林木风Win7 SP1 64位旗舰版 V2021.05
9萝卜家园Ghost Win7 64位极速装机版 V2021.04
10技术员联盟Win7 64位完美装机版 V2021.04
深度技术Win10 64位优化专业版 V2021.06
2深度技术Win10系统 最新精简版 V2021.09
3Win10超级精简版 V2021
4Win10完整版原版镜像 V2021
5风林火山Win10 21H1 64位专业版 V2021.06
6Win10光盘镜像文件 V2021
7深度技术 Ghost Win10 64位 专业稳定版 V2021.11
8技术员联盟Ghost Win10 64位正式版 V2021.10
9Win10 21H1 Build 19043.1320 官方正式版
10技术员联盟Win10 64位永久激活版镜像 V2021.07
系统之家 Ghost Win11 64位 官方正式版 V2021.11
2Win11PE网络纯净版 V2021
3系统之家Ghost Win11 64位专业版 V2021.10
4Win11官网纯净版 V2021.10
5Win11 RTM版镜像 V2021
6番茄花园Win11系统64位 V2021.09 极速专业版
7Win11专业版原版镜像ISO V2021
8Win11官方中文正式版 V2021
9Win11 22494.1000预览版 V2021.11
10番茄花园Win11 64位极速优化版 V2021.08
深度技术Windows XP SP3 稳定专业版 V2021.08
2雨林木风Ghost XP Sp3纯净版 V2021.08
3萝卜家园WindowsXP Sp3专业版 V2021.06
4雨林木风WindowsXP Sp3专业版 V2021.06
5风林火山Ghost XP Sp3纯净版 V2021.08
6技术员联盟Windows XP SP3极速专业版 V2021.07
7萝卜家园 Windows Sp3 XP 经典版 V2021.04
8番茄花园WindowsXP Sp3专业版 V2021.05
9电脑公司WindowsXP Sp3专业版 V2021.05
10番茄花园 GHOST XP SP3 纯净专业版 V2021.03
热门教程 更多+
装机必备 更多+
重装教程 更多+
电脑教程专题 更多+