主页 > 产品网站 >多任务智慧体的一大步:DeepMind一次搞定57种Atar >

多任务智慧体的一大步:DeepMind一次搞定57种Atar

时间: 2020-06-29 浏览量:539

多任务智慧体的一大步:DeepMind一次搞定57种Atar

多任务学习,也就是让单一个智慧体学习解决许多不同的问题,是人工智慧研究中的长期目标。最近,该领域取得了许多重大进展, DQN 等智慧体可以使用相同的演算法来玩不同的游戏,包括 Atari 游戏「Breakout」和「Pong」游戏。

这些算法以前为每项任务分别训练不同的智慧体。随着人工智慧研究深入到更多複杂的现实世界领域,构建单个通用智慧体来学习完成多个任务将变得至关紧要。然而,截至目前,这一任务依然是一个重大挑战。 DeepMind 近期的一项研究就提出了自己的重大改进。

本篇文章将研究介绍编译如下:

要做出能掌握多种不同任务的智慧体的难点之一在于,强化学习智慧体用来判断成功的奖励等级往往有所不同,导致他们将注意力集中在奖励更高的任务上。拿「Pong」游戏来举例,智慧体每一步有三种可能的奖励:-1、0、+1;但在吃豆人这个游戏里面就不同了,只要一出门,就可以吃到一连串的豆豆,因而智慧体可以在单个步骤中获得数百或数千分。即使单次获得的奖励的大小可以比较,但随着智慧体不断进化,奖励的频率可能会随着时间发生变化。这意味着,只要不被敌人抓到,吃豆的奖励明显比打乒乓球高得多。那幺,智慧体当然会沉迷吃豆,全然忘记自己还肩负学会其它得分不易游戏的重任。

「PopArt」

为了不放任智慧体乱来, DeepMind 推出了 PopArt 。这一技术可以让不同游戏的奖励尺度互相适应起来,无论每个特定游戏中可以得到的奖励有多大,智慧体都会认为每个游戏具有同等的学习价值。研究人员用 PopArt 的常态化方法调整了当前最先进的强化学习智慧体,使得一个 AI 可以学会多达 57 种不同的 Atari 游戏了,而且在这些游戏中的得分也超过了人类得分的中位数。

从广义上来说,深度学习依赖于神经网路权重更新,其输出不断逼近理想目标输出。神经网路用于深度强化学习中时也是如此。 PopArt  的工作原理,就是估算各种目标的平均值以及离散程度。然后,在更新权重之前,用这些统计数据,把更新网路权重时作为参考的目标一致化。这样一来,学习过程就会变得比较稳定,不容易因为奖励尺度之类的因素改变而发生改变。为了得到準确的估计,网路的输出可以透过反转一致化过程缩放到真实目标範围。

如果按照这样的想法直接去做的话,目标统计数据的每次更新都将改变所有未一致化的输出,包括那些已经很好的输出,这样会造成表现的下降。 DeepMind 研究人员的解决方案是,一旦统计数据有更新,他们就把网路向着相反的方向更新;而这种做法是可以準确地执行的。这意味着我们既可以获得尺度準确的更新的好处,又能保持以前学习到的输出不变。正是出于这些原因,该方法被命名为 PopArt :它在运行中既能精确地保持输出,又能自适应地重新缩放目标。

 PopArt 作为修剪奖励的替代方案

一般来说,研究人员会透过在强化学习演算法中使用奖励修剪来克服变化奖励範围的问题。这种修剪方法把太大的和太小的,都裁剪到 [-1, 1] 的区间里,粗略地一致化期望奖励。虽然这个方法会让学习过程变得容易,但它也会让学习目标发生变化。仍然以吃豆人举例,智慧体的目标就是吃豆和吃敌人,每颗豆 10 分,而每吃掉一个敌人会获得 200 到 1600 不等的分数。如果用奖励裁剪的话,吃豆和吃敌人可能就没区别了。这样训练出来的 AI ,很可能只吃豆,完全不去追敌人,毕竟吃豆容易。如下图所示。

多任务智慧体的一大步:DeepMind一次搞定57种Atar

当移除奖励裁剪方案,并使用 PopArt 一致化代替剪裁步骤之后,训练效果就截然不同了。智慧体会去追敌人了,得的分数也高了许多。

多任务智慧体的一大步:DeepMind一次搞定57种Atar
利用 PopArt 进行多任务深度强化学习

 DeepMind 将 PopArt 应用于 Importance-weighted Actor-Learner Architecture 上,这是 DeepMind 此前提出的、最常用的深度强化学习智慧体。在实验中,与没有使用 PopArt 的基线智慧体相比, PopArt 显着提升了智慧体的性能。不论仍然有奖励修剪和还是去除了奖励修剪, PopArt 智慧体游戏得分的中位数都超越了人类玩家得分的中位数。这远远高于有着奖励修剪的基线智慧体,而直接去掉了奖励修剪的基线智慧体完全无法达到有意义的性能,因为它无法有效地处理游戏中奖励规模的大範围变化。

多任务智慧体的一大步:DeepMind一次搞定57种Atar

 57 个 Atari 游戏上的中位数标準化性能。每一条线对应单一个智慧体使用同一个神经网路在所有游戏中得到的中位数性能。实线代表使用了奖励修剪的智慧体。虚线代表未使用奖励修剪的智慧体。

这是首次使用单个智慧体在这种多任务环境中实现超越人类的表现,表明 PopArt 可以为这样的开放性研究问题提供线索,即如何在没有手动修剪或缩放奖励的情况下平衡不同的目标函数。 PopArt 实现在学习的同时自动适应一致化的能力在应用 AI  到更加複杂的多模态领域时可能是很重要的,其中智慧体必须学会权衡多个不同的具备变化奖励的目标函数。

欢迎加入「Inside」Line 官方帐号,关注最新创业、科技、网路、工作讯息
多任务智慧体的一大步:DeepMind一次搞定57种Atar
多任务智慧体的一大步:DeepMind一次搞定57种Atar

上一篇: 下一篇:
相关推荐
sunbet管理网手机入口|体验科技|探险之家|网站地图 申博占成合作 申博sunbet在线娱乐