DeepSeek 下一代技术提前曝光，梁文锋署名论文获 ACL 2025 最佳论文奖-阿里西西

在 ACL 2025 的颁奖典礼上，由 DeepSeek 梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。

这次 ACL 2025 规模空前，总投稿量达到 8360 篇，相较于去年的 4407 篇几乎翻倍，竞争异常激烈。

简单来说，他们提出的原生稀疏注意力（NSA）机制，通过算法与硬件的协同优化，直接把长文本处理速度提升了 11 倍。更厉害的是，性能不仅没降反而还超越了传统的全注意力模型。

一作袁境阳在会上发表演讲，透露这项技术可以把上下文长度扩展到 1 百万 tokens，将被应用到下一个前沿模型中。

结合论文发表于 DeepSeek-R1 推出之后，实验设置中也提到使用了 DeepSeek-R1 的蒸馏数据来微调了新的模型。

大家纷纷猜测，这项技术将被用于下一代 DeepSeek-V4 以及 DeepSeek-R2。

给注意力机制瘦身，速度狂飙 11 倍

长久以来，大语言模型处理长文本就像是戴着镣铐跳舞。传统的全注意力机制计算复杂度随序列长度呈平方级增长，处理 64k 长度的文本时，注意力计算竟然要占到总延迟的 70-80%。

这篇论文的解决思路很巧妙：既然不是所有词之间的关系都同等重要，为什么不让模型学会”抓重点”呢？

NSA 采用了一种动态分层的稀疏策略，通过三条并行的注意力分支协同工作：

压缩注意力，负责捕捉粗粒度的全局信息模式，就像快速浏览全文抓住大意；

选择性注意力，则专注于序列中最重要的词块，相当于精读关键段落；

滑动注意力，负责获取局部的上下文信息，确保细节不丢失。

这种设计最精妙的地方在于，它不是简单地丢弃信息，而是通过精心设计的算法平衡了计算密度。

更重要的是，整个架构针对现代 GPU 硬件进行了深度优化，实现了端到端的原生可训练模式。

在实际测试中，处理 64k 长度序列时，NSA 在解码、前向传播和反向传播的全生命周期中都展现出惊人的速度优势。

解码阶段速度提升 11.6 倍，前向传播提升 9 倍，反向传播也有 6 倍的加速，无论是模型推理还是训练，都能获得实实在在的效率提升。

不仅快还更准，长文本处理迎来新突破

速度快只是 NSA 的一面，更让人惊讶的是它在各项基准测试中的表现。

在通用基准测试中，采用 NSA 预训练的 27B 参数模型在 9 个评测指标中有 7 个超越了全注意力基线。特别是在推理相关的基准测试上，DROP 提升了 0.042，GSM8K 提升了 0.034，显示出稀疏注意力在强制模型聚焦关键信息方面的独特优势。

长文本处理能力的测试结果更是亮眼。在 64k 上下文的”大海捞针”测试中，NSA 在所有位置都实现了完美的检索准确率。在 LongBench 基准测试上，NSA 取得了 0.469 的平均分，不仅超越了全注意力基线（+0.032），更是大幅领先其他稀疏注意力方法。

特别值得一提的是，在需要复杂推理的多跳问答任务上，NSA 相比全注意力分别提升了 0.087（HPQ）和 0.051（2Wiki）；在代码理解任务（LCC）上提升了 0.069；在段落检索任务（PassR-en）上提升了 0.075。

研究团队还进行了一项有趣的实验：

他们用 DeepSeek-R1 的数学推理数据对模型进行微调，然后在美国数学邀请赛（AIME 24）上测试。

结果显示，NSA-R 在 8k 上下文设置下的准确率达到 0.121，而全注意力模型只有 0.046；即使在 16k 上下文下，NSA-R 仍然保持 0.146 的准确率，远超全注意力的 0.092。

这些结果充分证明了 NSA 不是通过牺牲性能来换取速度，而是真正实现了效率和能力的双赢。

Three More Thing

这次总共评选出 4 篇最佳论文，另外三篇包括：

北大团队的《Language Models Resist Alignment: Evidence From Data Compression》

研究了大型语言模型的“弹性”，指模型经过对齐训练（让模型符合人类价值观、减少有害输出）后，很容易因为后续的微调而变回预训练时的状态，就像弹簧被拉伸后会反弹一样。

这意味着现有的对齐方法可能只是表面上改变了模型，不够稳固。未来需要更有效的对齐技术，才能让模型真正稳定地符合人类需求，尤其是在开源模型中，要避免恶意微调轻易破坏安全机制。

斯坦福团队的《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

研究了大模型“公平性”上的一个新视角“差异感知”。简单来说，就是模型应该在合适的场景下对不同群体做出区分，而不是一味地一视同仁。

研究发现那些在传统公平性测试中表现好的模型，在“差异感知”上得分并不高；模型能力越强（比如 MMLU 分数越高），情境感知能力越好，但差异感知能力未必提升；现有的“去偏见”方法（比如提示模型“保持无偏见”）反而会让模型更无视差异，甚至把正确答案改错。

亥姆霍兹信息安全中心等团队的《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》。

这篇论文指出大模型生成回答时的采样机制与人类决策类似，包含描述性成分（反映概念的统计常态）和规定性成分（隐含的概念理想状态）。

研究通过实验验证，无论是新创概念还是现有概念（涵盖 10 个领域的 500 个概念），LLMs 生成的样本都会偏离统计平均值，向其认为的“理想值”偏移，且这种现象在 15 种不同模型中均显著存在。案例研究显示，这种偏向可能导致医疗等领域的有偏决策，引发伦理问题。

DeepSeek 论文地址：

https://arxiv.org/abs/2502.11089

参考链接：

[1]https://x.com/aclmeeting/status/1950572483637067786

[2]https://x.com/casper_hansen_/status/1950649481617342803

DeepSeek 下一代技术提前曝光，梁文锋署名论文获 ACL 2025 最佳论文奖

给注意力机制瘦身，速度狂飙 11 倍

不仅快还更准，长文本处理迎来新突破

Three More Thing

北大团队的《Language Models Resist Alignment: Evidence From Data Compression》

斯坦福团队的《Fairness through Difference Awareness: Measuring Desired Group Discrimination in LLMs》

亥姆霍兹信息安全中心等团队的《A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive》。

相关文章

中国移动香港收购香港宽频获批，已达成所有先决条件

奔驰全新纯电 CLA 车型开启预订：续航达 866 公里，本土辅助驾驶功能

西十高铁全线 42 座隧道贯通，建成后西安至武汉 2.5 小时到达

全球估值最高 AI 公司：消息称 OpenAI 最新融资超 80 亿美元，提前完成今年 400 亿美元目标

10 月生效：Jetbrains 宣布上调 IDE、dotUltimate 等产品价格

英特尔三大高管同步退休，芯片代工制造业务面临洗牌

相关应用

最近更新

网友在玩

相关标签