OpenAI最新发布的强大开源权重AI大语言模型家族gpt-oss问世尚不足两周(采用宽松的Apache 2.0许可证,这是该公司自2019年GPT-2以来首次开源模型),但业外开发者已开始对其进行改造。
最引人注目的案例来自康奈尔理工大学博士生、前Google Brain研究员、现Meta研究员Jack Morris。他本周发布了gpt-oss-20b-base——基于OpenAI较小规模gpt-oss-20B模型的重制版本,移除了原模型的"推理"特性,使其回归预训练的"基础"状态,能够提供更快速、更自由、未经审查且不受约束的响应。
该模型现已在Hugging Face平台上线,采用宽松的MIT许可证,允许用于科研与商业场景。
gpt-oss-20B-base与OpenAI原版的差异
理解Morris的改造,需要先明确OpenAI发布版与AI研究者所称"基础模型"的区别。
OpenAI、Anthropic、Google等头部AI实验室,乃至Meta、DeepSeek、阿里通义千问等开源团队提供的LLM多为"后训练"版本。
这意味着它们经过额外训练阶段,接触过理想行为的精选示例。
对于指令微调模型,这意味着输入大量指令与理想响应的配对样本,使其学会以更友好、礼貌或安全的方式回应自然语言请求。
OpenAI 8月5日发布的gpt-oss模型属于"推理优化"型:不仅训练预测下一个单词,还通过安全一致的方式遵循指令,通常采用结构化"思维链"推理逐步解决问题后生成最终答案。
这种趋势可追溯至OpenAI 2024年9月发布的o1模型,现已被多家顶级AI实验室采用——强制模型通过多步骤长时间思考,并在输出合理答案前自我校验。
这使得它们更适合编程、解数学题或带解释的事实问答,但也意味着响应内容会经过过滤,规避不安全或不恰当内容。
基础模型则不同。它是在应用推理对齐前的原始预训练版本,仅基于上文预测后续文本片段,没有内置防护机制、风格偏好或拒绝行为。
这类模型受研究者青睐,因其能生成更多样化、更少约束的输出,且通过研究未对齐行为可揭示模型如何存储训练数据中的知识与模式。
Morris的目标是"逆转"OpenAI的对齐流程,使gpt-oss-20B更接近原始预训练状态。
"我们基本上逆转了LLM训练中的对齐环节,使其重新生成自然文本"他在项目公告推文中写道,"不再进行思维链推理,回归到仅预测通用文本下一标记的模型。"
基础模型的提取过程
不同于初期实验中无效的"越狱"提示法,Morris在与前OpenAI联合创始人、现Thinking Machines首席科学家John Schulman交流后采取了新方法。
关键是将对齐逆转视为小型优化问题:若模型大部分预训练知识仍存于权重中,仅需微小低秩更新即可使其回归基础模型行为。
Morris通过LoRA(低秩适配器)技术实现了这一构想,仅更新模型第7、15、23层的MLP模块,秩为16。
这意味着训练约6000万参数(占210亿总参数的0.3%)。他使用FineWeb数据集中约2万份文档,严格保持原始预训练格式("... "样式),确保模型不学习新内容,仅恢复自由文本生成能力。
在8块NVIDIA H200 GPU上训练耗时4天,Morris向VentureBeat透露参数包括:学习率2e-6,批量大小16,最大序列长度8192标记。
训练后将LoRA权重合并回模型,用户可直接运行完整微调版本。
Morris还需应对当前开源工具对gpt-oss等专家混合架构(MoE)微调的限制。
他使用Hugging Face框架(存在频繁崩溃问题),并自建检查点系统跳过可能耗尽GPU显存的数据批次。
针对AI社区质疑,Morris特别澄清他并未声称还原了基础模型"权重"(构成神经网络行为的人工神经元内部参数),而是"以一定误差恢复了基础模型的*概率分布*"——即模型生成输出的概率模式,尽管产生这些模式的权重可能不同。
新版模型的行为差异
最终的gpt-oss-20b-base输出明显更自由。不再默认逐步解释推理过程,能生成更广泛响应,包括OpenAI对齐模型会拒绝的内容——例如武器制造指南、粗俗用语列表或违法活动策划。
简单测试中,Morris发现它能逐字复述受版权保护作品,包括六段书籍摘录中的三段,表明部分记忆内容仍可提取。
尽管如此,某些对齐痕迹仍然存在。Morris指出若以助手格式("人类:... 助手:...")提问,模型偶尔仍会表现如礼貌聊天机器人。当通过原始gpt-oss聊天模板运行时,仍能执行推理任务,但质量有所下降。
为获得最佳自由文本效果,他建议在提示前添加模型专用起始标记<|startoftext|>,并完全避免聊天模板。
OpenAI开源家族的影响
gpt-oss系列发布时引发高度关注。gpt-oss-120B和gpt-oss-20B两款纯文本多语言模型采用专家混合Transformer架构,Apache 2.0许可证允许无限制本地使用、微调和商业部署。
OpenAI基准测试显示,120B大模型在推理和工具使用任务上媲美或超越专有o4-mini,20B小模型则与o3-mini性能相当。
这是OpenAI六年来首次开源权重,普遍被视为应对中国DeepSeek R1、通义千问3等开源竞品的竞争压力。
该公司将gpt-oss定位为重新吸引转向竞品开源模型的开发者平台,同时作为开源权重系统的安全研究基地。
业界的矛盾反应
开发者对gpt-oss的评价呈现两极分化。
支持者赞赏其宽松许可证、高效性及STEM基准测试的优秀表现。Hugging Face CEO Clem Delangue称其为"开源生态的重要补充",呼吁给予成熟时间。
批评者则认为模型过度依赖合成数据训练,虽擅长数学编程,但在创意写作、常识推理和多语言能力上表现欠佳。早期测试者还提出对残余安全过滤和地缘政治偏见的担忧。
在此背景下,Morris的gpt-oss-20b-base成为开源模型发布数日内即被改造应用的典型案例。
与OpenAI原版的争议不同,Morris的作品收获了大量热情反馈。正如某计算机科学家在X平台所言:"这是几个月来我在推特上见过最酷的项目。"
该方法剥离了OpenAI内置的大量行为约束,使模型更接近原始预训练状态——这种转变对研究记忆机制、偏见或对齐影响的研究者具有价值,但同时也伴随着更高的安全风险。
Morris表示,后续将通过对比通义千问等非推理指令模型,继续探索将推理模型还原为预训练基础模型的方法。