从国际象棋到围棋再到扑克,人工智能代理在许多游戏中都击败了人类。现在,这些机器可以在经典赛车游戏系列GranTurismo中获得新的高分。
索尼今天宣布,其研究人员已经开发出一款名为GTSophy的AI车手,它是“可靠的超人”——能够在GranTurismoSport中连续几圈击败顶级人类车手。你可能认为这是一个简单的挑战。毕竟,赛车不只是速度和反应时间的问题,因此对机器来说很容易掌握吗?但电子游戏赛车和人工智能领域的专家都表示,GTSophy的成功是一项重大突破,代理人表现出对战术和战略的掌握。
斯坦福汽车教授J.ChristianGerdes在科学杂志《自然》的一篇社论中写道:“在面对面的竞争中如此熟练地超越人类司机代表了人工智能的一项里程碑式的成就。“GTSophy在赛道上的成功表明,有朝一日,神经网络在自动驾驶汽车软件中的作用可能比现在更大。”
GTSophy使用一种称为强化学习的方法进行训练:本质上是一种试错形式,其中AI代理被扔到一个没有指令的环境中,并因达到某些目标而获得奖励。在GTSophy的案例中,索尼的研究人员表示,他们必须非常谨慎地设计这种“奖励功能”:例如,微调碰撞惩罚,以塑造一种足够激进的驾驶风格,从而赢得胜利,但并没有领先。人工智能只是在路上欺负其他赛车手。
使用强化学习,GTSophy只需几个小时的训练就能在赛道上导航,并且“在一两天内”比其训练数据集中95%的车手快。经过大约45,000小时的总训练,GTSophy能够在三个赛道上取得超人的表现。(对于GranTurismoSport的玩家来说,有问题的赛道是DragonTrailSeaside、LagoMaggioreGP和CircuitdelaSarthe。)
在针对人类测试AI代理时,一个常见的问题是机器具有许多与生俱来的优势,例如完美的回忆和快速的反应时间。索尼的研究人员指出,与人类玩家相比,GTSophy确实具有一些优势,例如带有赛道边界坐标的精确路线地图和“关于每个轮胎的负载、每个轮胎的侧偏角和其他车辆状态的精确信息”。但是,他们说,它们占了两个特别重要的因素:动作频率和反应时间。
GTSophy的输入上限为10Hz,而理论上的最大人工输入为60Hz。研究人员写道,这有时会导致人类驾驶员在高速行驶时表现出“更加流畅的动作”。在反应时间方面,GTSophy能够在23-30毫秒内对比赛环境中的事件做出反应,这比估计的职业运动员200-250毫秒的最高反应时间要快得多。作为补偿,研究人员添加了人工延迟,以100毫秒、200毫秒和250毫秒的反应时间训练GTSophy。但正如他们发现的那样:“所有这三项测试都达到了超人的单圈时间。”
GTSophy针对三位顶级电子竞技车手进行了测试:EmilyJones、ValerioGallo和IgorFraga。尽管没有一个人类能够在计时赛中击败人工智能,但他们的比赛让他们发现了新的战术。
“看到AI会走的线真的很有趣,在某些角落我会向外扩大然后切入,而AI一直在进入,所以我学到了很多关于线的知识,”电子竞技车手艾米丽·琼斯(EmilyJones)在《自然》(Nature)报纸上的一篇感言中说。“例如,在进入1号弯时,我的刹车比AI晚,但AI会比我获得更好的出口,并将我击败到下一个弯道。直到我看到人工智能时我才注意到这一点,然后就像是,‘好吧,我应该这样做。’”
索尼表示,它目前正在努力将GTSophy整合到未来的GranTurismo游戏中,但没有提供何时发生这种情况的时间表。