腾讯AI Lab与圣路易斯华盛顿大学研究人员联合开发的新型训练框架R-Zero,实现了大语言模型无需人工标注数据的自我进化。该技术通过强化学习从零生成训练数据,突破了自进化AI系统的核心瓶颈。R-Zero的核心机制是让两个独立模型通过相互博弈实现协同进化。
实验表明,R-Zero能显著提升各类大模型的推理能力,有望降低训练高阶AI的复杂度与成本。对企业而言,这种方法可在不耗费巨资构建标注数据集的情况下,加速开发面向复杂推理任务的专用模型。
自进化大模型的挑战
自进化大模型的愿景是构建能自主生成、优化并从自身经验中学习的AI系统,为更智能的AI提供可扩展路径。但核心难题在于:训练这类模型需要海量高质量任务及标注数据作为监督信号。
依赖人工标注不仅成本高昂效率低下,更从根本上限制了AI的能力上限——模型只能学习人类已掌握的知识。现有无标注方法虽能直接从模型输出中提取奖励信号(如根据答案置信度评分),但仍依赖预设任务库,无法实现真正的自进化。
另一些方法让模型自生成学习任务,但在开放式推理等领域,由于缺乏类似代码执行器的验证机制,确保自生成数据的质量成为重大障碍。
R-Zero运作机制
R-Zero框架使推理大模型能从零外部数据启动进化。其核心是将基础模型拆分为"挑战者"与"解题者"双角色,二者通过持续对抗实现协同优化。
挑战者负责生成恰好位于解题者能力边界的新任务(难度适中),解题者则通过完成渐进复杂的任务获得奖励。论文共同作者、圣路易斯华盛顿大学博士生黄成松向VentureBeat指出:"实践中我们发现,最大挑战不在于生成答案...而是创造高质量、新颖且渐进困难的问题。优秀教师远比优秀学生稀缺。这种协同进化机制自动化了'教师'的创造过程。"
当挑战者生成足量问题后,系统会筛选多样性问题构成训练集。解题者通过对其历史答案进行多数表决来确定"正确答案",并据此微调模型。整个过程循环迭代,形成无需人工干预的自进化闭环。
实际效果验证
研究团队在Qwen3、OctoThinker等开源模型上测试R-Zero。先在数学问题训练,再验证其推理能力能否迁移至MMLU-Pro(多语言理解推理)、SuperGPQA(科学推理)等通用基准测试。
结果显示R-Zero具备高度模型无关性:Qwen3-4B-Base模型数学推理平均提升+6.49分,Qwen3-8B-Base经三次迭代后数学能力增长+5.51分。首次迭代后的性能跃升尤为显著,证明挑战者生成的智能课程显著优于未经训练的生成器。
关键发现是数学推理能力可有效迁移至通用领域——同一Qwen3-4B-Base模型在通用推理基准提升+7.54分。更值得注意的是,经R-Zero预训练的模型在传统标注数据微调后表现更优,表明该框架具备性能放大器效应。
对企业而言,这种"零数据启动"范式在高质量数据稀缺的垂直领域极具颠覆性。黄成松强调:"我们的方法彻底绕过了寻找、标注和筛选高质量数据集的核心瓶颈。这不仅是成本节约,更是突破人类知识边界创造超人类AI的路径。"
但协同进化过程也暴露关键挑战:随着挑战者生成问题难度递增,解题者通过多数表决产生的"正确答案"可靠性逐步下降。实验显示自生成标签的真实准确率从首次迭代的79%降至第三次的63%(相较GPT-4等强基准模型)。这种数据质量衰减是系统长期性能的主要权衡点。
黄成松坦言:"这是自进化范式的根本性难题。我们的工作验证了该方向的潜力,但如何保持长期稳定进化仍是重大障碍。解决这个问题将是学界的关键下一步。"
当前框架主要适用于数学等可客观验证的领域。对于营销文案生成、报告摘要等主观性企业任务,研究者提出可能解决方案:引入第三方协同进化AI智能体——"验证者"。
"验证者将根据多维标准评估解题者输出的质量,形成'挑战者出题-解题者作答-验证者评分'的三元协同进化架构。"黄成松解释道。这为未来完全自主的AI系统掌握主客观推理能力指明了方向。