
首先是-set Xie Yunfei,是赖斯大学的一项医生研究,他的主管是相应的Wei Chen教授,他的研究指示包括世代和多模式的理解。项目负责人Xiao Junfei是约翰·霍普金斯大学(Johns Hopkins University)学习的医生,也是彭博杰出教授艾伦·尤尔(Alan Yuille)的主管。第二个是Ma Yunsong,是约翰·霍普金斯大学学习的医生。第三个具有-set的Lan Shiyi是Nvidia Research的科学家。最近,在加强领域中出现了一个令人不安的发现:研究人员不再需要大量的数学培训样本,并且只允许AI玩简单的游戏可以显着提高其数学推理能力。先前研究的Natangan,即使没有提供标准答案,强化的教育也可以通过使用数学问题来改善模型的性能,这导致人们重新构想教育方法加强。莱斯大学,约翰·霍普金斯大学和NVIDIA的研究团队甚至更进一步:他们允许多式联运大语言语言(MLLM)在没有任何数学或多学科培训数据的情况下玩简单的游戏,这显着改善了该模型多态推理的多模式推理。研究小组提出了Vigal(视觉游戏学习)方法,该方法超出了以前在许多视野中的数据中训练的增强模型,例如在许多主要基准的视觉数学基准和SE基准测试基准的基准上。纸张标题:Play General:通过游戏播放播放纸链接进行研究推理:https://arxiv.org/abs/2506.08011项目homepage:https://yunfeixie233.github.io/vigal/无需数学示例,游戏训练就在数学上取得了突破性的训练。最近的研究表明,与管理的微调(SFT)相比,加固研究(RL)经常实现Stros“单独研究并将其应用于他人”的跨域的nger geralization。以前的任务证明,在数学问题上训练的模型可以扩大物理问题的前景,而训练有素的导航代理可以成功适应一个全新的环境。但是,这种概括的成功案例通常仅限于一个域,任务的起源和一般目标任务仍然属于同一类型。图1:我们发现,通过简单地对蛇等游戏进行刺激性训练,该模型可以从总体上的能力中出现,并提高许多活动(例如数学和多学科)的表现。这项工作的突破取决于实现更强形式的跨域泛化形式:从游戏领域到数学推理,空间推理和多学科推理等领域的完全过渡。研究小组培训了QWEN2.5-VL模型有了7B参数,并发现只有通过强化研究模型玩扁豆和旋转游戏才能实现许多基准测试:数学改进的改进:只有通过游戏训练,使用数学样本,Vigal在数学推理基准中平均提高了2.9%的数学基准,例如MathVista,例如MathVista,例如刺激方法的2.4%。多学科推理的突破:Vigal超过了在多学科数据中训练的R1-onevision-7b模型,达到5.4个百分点。能力的一般维护:测试后,先前的大多数研究模型在提高特定领域的性能时都打破了一般的视觉能力,但是Vigal可以在保持原始总体表现的同时,达到了理性的能力。 Larcloud 2:不使用数学或多学科样本,仅通过游戏培训,模型平均提高了2.9%Soning Benchmark(左图),平均为2.0%,具有多学科的推理基准(右图),这超出了多学科数据的方式。为什么游戏训练如此有效?图3:我们使用加固的研究来训练蛇游戏和旋转游戏。在每个游戏中,该模型将以图片和文本形式作为输入接收游戏环境,遵循游戏的说明,并选择在游戏环境中执行的操作。实施后,您将从环境中获得奖励进行增强。通过游戏训练,该模型可以获得推理能力,并可以切换到下游数学和多学科活动。游戏为什么可以提高数学技能?这一发现并没有真正违反认知科学的基本定律。记住我们自己的成长过程:当我们年轻时,我们通过开发块来了解空间的概念,了解通过隐藏和搜索定位,并通过各种益智游戏培养逻辑思维。正是通过看似嬉戏的活动,孩子们逐渐建立了抽象思维的基础 - 庞大的识别,空间推理和理解原因。认知科学研究也证实了这一点:游戏通常被用作探索人类思想的实验平台。研究人员可以通过四个儿童游戏探索解决问题的认知机制,并使用虚拟工具来探索解决问题的认知机制。基于这个理论上的灵感,研究团队由两个互补培训游戏巧妙地设计:蛇游戏:这是一个经典的策略决策游戏。在10×10的网格中,该模型需要控制蛇的运动,以避免撞到墙壁,撞击自己或对手,同时收集尽可能多的苹果。游戏开发的基本功能包括路径规划,空间障碍和导航DECIS离子直接对应于协调几何形状并了解数学中的图像。游戏轮换:这是一款3D空间推理游戏,已独立执导研究团队。该模型需要观察相同3D对象的相同视图的两个角度 - 周期的初始透视和透视图,并确定对象是否旋转90度或180度。该游戏专门研究空间几何形状以了解能力,这直接符合与角度和长度有关的数学推理问题。这两个游戏设计的理念相互融合:蛇主要改善了相关数学表演的2DO坐标,旋转游戏更适合于角度和推理长度。实验证明,联合训练中的两场比赛比单独的练习更好,这表明了差异的潜力 - 游戏的多样性。结论:在人类制作活动的新时代展示了一种潜在的新趋势:当高质量的人类数据干燥和简单的任务饱和,精心设计的游戏(作为人类制造)可以为开发多模式推理能力开辟新的道路。与传统的直接训练方法相比,这种游戏化的训练范式显示出独特的好处:超低成本:不需要手机验证,并且扩展的无限影响很大:许多数学的例子将进一步改善数学的性能:不会引起偏见,并保持模型的全面能力。更重要的是,Vigal可以揭示一个简单但深厚的现实:从目标研究的直接任务中,培养基础的一般季节能力也可以帮助提高模型性能。因为我们不仅通过记住数学公式来培养数学思维,而且还通过各种思维练习来发展抽象能力。现在,当规模法可能在公关中时Vigal Oblem提醒我们,以一个简单而优雅的想法:有时候,让游戏游戏比放开问题更有效。