一个被训练在工厂里完成家务的家用机器人,当被部署在用户的厨房里时,可能无法有效地擦洗水槽或倒垃圾,因为这个新环境与它的训练空间不同。
为了避免这种情况,工程师们通常会尽可能地将模拟训练环境与智能体将要部署的现实世界相匹配。
然而,麻省理工学院和其他地方的研究人员现在发现,尽管存在这种传统智慧,但有时在完全不同的环境中训练会产生更好的人工智能代理。
他们的研究结果表明,在某些情况下,在不确定性较小或“噪音”较少的世界中训练模拟人工智能代理,使其表现优于在用于测试两个代理的相同嘈杂世界中训练的竞争人工智能代理。
研究人员将这种意想不到的现象称为室内训练效应。
“如果我们在没有噪音的室内环境中学习打网球,我们可能会更容易掌握不同的击球方式。然后,如果我们搬到一个更嘈杂的环境,比如一个有风的网球场,我们可以有更高的概率打好网球,而不是我们在有风的环境中开始学习,”麻省理工学院媒体实验室的研究助理塞雷娜波诺解释说,她是一篇关于室内训练效果的论文的主要作者。
研究人员通过训练人工智能代理玩雅达利游戏来研究这一现象,他们通过添加一些不可预测性来修改这些游戏。他们惊讶地发现,室内训练效应在雅达利游戏和游戏变体中始终存在。
他们希望这些结果能够推动进一步的研究,为人工智能代理开发更好的训练方法。
“这是一个需要思考的全新轴心。与其试图匹配训练和测试环境,我们也许能够构建人工智能代理学习得更好的模拟环境,”合著者、哈佛大学研究生Spandan Madan补充道。
加入Bono和Madan的还有MIT研究生Ishaan Grover;安田茂(Mao Yasueda)是耶鲁大学的研究生;麻省理工学院媒体实验室媒体艺术与科学教授、个人机器人小组负责人Cynthia Breazeal;Hanspeter Pfister,哈佛大学计算机科学系安旺教授;以及哈佛医学院教授加布里埃尔·克雷曼。这项研究将在人工智能促进协会会议上发表。
培训问题
研究人员开始探索为什么强化学习代理在与其训练空间不同的环境中测试时往往表现如此糟糕。
强化学习是一种反复试验的方法,在这种方法中,智能体探索一个训练空间,并学习采取行动,使其奖励最大化。
该团队开发了一种技术,可以明确地将一定量的噪声添加到强化学习问题的一个元素中,称为过渡函数。转移函数定义代理根据其选择的动作从一种状态移动到另一种状态的概率。
如果代理正在玩《吃豆人》,那么转换函数可能会定义游戏板上的幽灵向上、向下、向左或向右移动的概率。在标准的强化学习中,人工智能将使用相同的过渡函数进行训练和测试。
研究人员用这种传统方法在过渡函数中添加了噪声,正如预期的那样,它损害了代理的吃豆人表现。
但是,当研究人员用无噪声的吃豆人游戏训练智能体,然后在将噪声注入过渡函数的环境中对其进行测试时,它比在有噪声的游戏中训练的智能体表现得更好。
“经验法则是,您应该在训练期间尽可能地捕捉部署条件的转换函数,以获得最大的收益。我们对这种见解进行了彻底的测试,因为我们自己都不敢相信。”
在过渡函数中注入不同数量的噪音可以让研究人员测试许多环境,但这并不能创造出真实的游戏。他们在《吃豆人》中注入的噪音越多,幽灵就越有可能随机传送到不同的方格。
为了观察室内训练效应是否出现在普通的吃豆人游戏中,他们调整了潜在的概率,让幽灵正常移动,但更有可能上下移动,而不是左右移动。在无噪声环境中训练的AI代理在这些现实游戏中仍然表现得更好。
“这不仅仅是因为我们添加了噪音来创造特殊的环境。这似乎是强化学习问题的一个特性。这更让人惊讶,”波诺说。
勘探的解释
当研究人员更深入地寻找解释时,他们看到了人工智能代理如何探索训练空间的一些相关性。
当两个AI智能体探索大部分相同的区域时,在无噪声环境中训练的智能体表现更好,也许是因为在没有噪声干扰的情况下,智能体更容易学习游戏规则。
如果它们的探索模式不同,那么在嘈杂环境中训练的智能体往往表现得更好。这可能是因为智能体需要理解它在无噪声环境中无法学习的模式。
波诺解释说:“如果我只在不嘈杂的环境中学习用正手打网球,但在嘈杂的环境中我还必须用反手打,那么在不嘈杂的环境中我就打不好了。”
未来,研究人员希望探索室内训练效果如何在更复杂的强化学习环境中发生,或者与计算机视觉和自然语言处理等其他技术一起发生。他们还想建立旨在利用室内训练效果的训练环境,这可以帮助人工智能代理在不确定的环境中表现得更好。
作者:麻省理工学院
链接:https://www.sciencedaily.com/releases/2025/01/250129162714.htm
著作权归作者所有。
声明:海森大数据刊发或者转载此文只是出于传递、分享更多信息之目的,并不意味认同其观点或证实其描述。若有来源标注错误或侵犯了您的合法权益,请作者与本网联系,我们将及时更正、删除,谢谢。电话:152 6451 3609,邮箱:1027830374@qq.com
2025-02-11 08:33:41
麻省理工学院