宁德生活圈

网站首页 互联网 > 正文

AI:人工智能在捉迷藏游戏中表现出惊人的行为

2021-10-12 06:58:05 互联网 来源:
导读 研究人员发布消息称,他们的人工智能野心开发了一种强大的捉迷藏游戏,结果令人望而生畏。代理人的环境有墙壁和可移动的盒子来挑战一些人,

研究人员发布消息称,他们的人工智能野心开发了一种强大的捉迷藏游戏,结果令人望而生畏。代理人的环境有墙壁和可移动的盒子来挑战一些人,其中一些人是寻求者,另一些人是寻求者。一路上发生了很多事情,带来了惊喜。

作者陈述了他所学到的东西,他们写道:“我们观察到代理在玩简单的捉迷藏游戏时,逐渐找到了更复杂的工具。”代理建立了一系列六个不同的策略和反策略,其中一些我们不知道的策略得到了我们环境的支持。"

在本周早些时候发布的一篇新论文中,该团队宣布了结果。他们的论文《来自多智能体自动课程的紧急工具使用》有七位作者,其中六位列出了OpenAI,另一位是Google Brain。

作者评论了他们所面临的挑战。“创造能够解决各种复杂的人类相关任务的智能人工智能因子,一直是人工智能领域的长期挑战。”

该团队表示,“我们发现代理创建了一个自我监控的自动课程,它触发了几轮不同的应急策略,其中许多需要复杂的工具使用和协调。”

通过捉迷藏,(1)探索者学会追击道奇和学会逃跑的道奇,(2)隐藏者学会建造堡垒的基本工具和墙壁。(3)搜索者学会了用坡道跳进躲避者的掩体;(4)隐藏者学会将坡道从他们建造堡垒的地方移开,并将它们锁定在适当的位置;(5)搜索者知道他们可以从上锁的坡道跳进箱子里,然后把他们赶到躲避者的避难所。(6)在建造堡垒之前,隐藏者学会了锁定未使用的箱子。

这六种策略看起来就像是代理在捉迷藏中互相训练——每一种新策略都给代理创造了进入下一阶段的压力,而没有任何直接激励代理与对象进行交互或探索。这些策略是多智能体竞争和捉迷藏造成的“自动课程”的结果。

博客中的作者说,他们了解到“通常情况下,代理会找到一种方法来使用您以无意的方式构建的环境或物理引擎。”

发生的事情是“自我监控的迫切复杂性”。而这“进一步表明,多智能体的联合适应有朝一日可能会产生极其复杂和智能的行为。”在他们的论文中,作者还指出,“在物理基础和开放环境中诱导自动调节最终可能使代理人获得无限的人类相关技能。”

新科学家道格拉斯帕拉迪真的引起了读者对他所描述的事情的兴趣:

“起初,道奇只是逃跑了。然而,他们很快发现,找到探索者的最快方法是在环境中寻找物体来隐藏他们的视线,并将其用作工具。例如,他们了解到这些盒子可以用来堵门和建造简单的藏身之处。求职者了解到,他们可以移动一个坡道,并利用它爬墙。然后机器人发现,作为一名团队成员——互相传递物体或合作隐藏——是最快的获胜方式。”

这是一个雄心勃勃的项目。在回顾他们的工作时,《麻省理工学院技术评论》指出,AI在经历了近5亿次捉迷藏游戏后学会了使用工具。通过玩捉迷藏,两个对立的AI代理团队制定了复杂的隐藏和寻找策略。

郝凯伦提供了一个有趣的标记来显示经纪人在多轮之后学到了什么.大约2500万个游戏标记,游戏变得更加复杂。隐藏者学会移动和锁定环境中的箱子和路障,以在自己周围建立斗争,这样搜索者就永远看不到它们了。”

数百万回合:搜索者找到了一个反策略,因为他们学会了移动道奇要塞旁边的斜坡,并利用它爬墙。经过更多回合后,道奇学会了在建造堡垒前将斜坡锁定到位。

然而,更多的策略出现在3.8亿的比赛中。出现了另外两种策略。搜索者开发了一种策略,通过使用锁定的坡道爬上一个解锁的盒子,然后在盒子顶部“冲浪”到堡垒和墙壁上,从而闯入入侵者的堡垒。在最后阶段,守望者再次学会了在建造堡垒前将所有坡道和箱子锁定到位。

郝引用了该报作者之一鲍文贝克的话。“我们没有告诉捉迷藏者或搜索者绕着盒子跑或与之互动.但通过多智能体竞争,他们为彼此创造了新的任务,让其他团队不得不适应。”

好好想想。贝克说他们没有告诉刽子手,没有告诉探索者,他们跑到箱子附近,没有和他们互动。

TechCrunch的Devin Coldewey想到了这一点。“该研究旨在并成功研究机器学习代理学习复杂的现实世界相关技术的可能性,而不受研究人员建议的干扰。"

Coldewey把这些工作都带回家了。"正如论文作者所解释的,我们就是这样出现的."

我们就像人类一样。科德威尔引用了他们论文中的一段话。

“由于生物之间的共同进化和竞争,地球上的大量复杂性和多样性已经进化,并受到自然选择的指导。当一个新的成功策略或变异出现时,它会改变要由邻近代理解决的隐藏任务的分布,并产生新的适应压力。这些进化军备竞赛创造了隐性的自动竞争,竞争对手不断为彼此创造新的任务。”


免责声明: 本文由用户上传,如有侵权请联系删除!


标签: