DeepSeek最新论文：如何让大模型跑得更快？梁文锋署名

2026-06-29 11:52:35 [时尚] 来源：德瑞斯资讯网

当行业焦点仍停留在“谁的最新模型更聪明”时，DeepSeek已将目光转向更具现实意义的论文命题：如何让模型运行得更快。

6月27日，何让DeepSeek在GitHub低调更新了一篇最新技术论文，大模得更正式介绍其推理加速框架 DSpark。型跑该框架旨在突破大语言模型在高并发场景下的快梁推理效率瓶颈。

从作者署名来看，文锋该成果由 DeepSeek与 北京大学联合发布，署名DeepSeek创始人 梁文锋赫然在列。最新论文不仅开源了DSpark模型权重，论文还同步发布了面向推测解码、何让由算法驱动的大模得更训练代码仓库 DeepSpec。

DeepSeek最新论文截图

此次发布延续了DeepSeek一贯的型跑“硬核技术派”风格，论文标题《DSpark：基于置信度调度的快梁半自回归生成推测解码》（DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation）虽显晦涩，却直指核心痛点。文锋

痛点：自回归生成的效率瓶颈

论文首先剖析了大语言模型（LLM）的核心性能瓶颈。传统LLM采用自回归方式生成文本，即每一个新词元（token）的生成，都需基于所有前置词元完成一次完整的前向传播。这种机制导致：
* 输出越长，等待越久；
* GPU利用率低下；
* 用户等待时间过长。

这在实时对话助手、多轮智能体工作流等对低时延敏感的场景中尤为突出。

目前主流解决方案主要分为两条路线：
1. 自回归草稿模型（如Eagle3）
2. 并行草稿模型（如DFlash）

然而，现有方案均存在生成质量瓶颈、系统效率瓶颈，且普遍缺乏负载自适应校验机制。

方案：DSpark的半自回归架构

针对上述缺陷，DeepSeek提出了 DSpark推测解码框架。该框架采用半自回归架构，通过两套互补机制，巧妙解决了草稿生成与校验环节之间的权衡矛盾，将高吞吐并行生成与自适应负载感知校验机制融为一体。

实测数据：性能显著提升

根据论文披露的受控离线基准测试数据（涵盖数学推理、代码生成、日常闲聊三类任务），DSpark框架相较于自回归草稿模型与并行草稿模型，在单轮平均可接受词元长度上实现了大幅提升。

1. 在线服务实测（DeepSeek-V4）
DeepSeek已将DSpark部署至DeepSeek-V4在线服务系统，基于真实用户流量评估其实际性能。结果显示，在相同吞吐量条件下，相较于现有生产环境基线系统 MTP-1，DSpark将用户端生成速度提升了60%-85%。

2. 跨模型通用性验证
此外，团队将该框架部署于阿里通义千问（Qwen3）系列模型（4B、8B、14B）上，验证了其通用性：
* 对比自回归草稿模型：Qwen3-4B、8B、14B的单轮可接受词元长度分别提升 30.9%、26.7%、30%。
* 对比并行草稿模型：上述模型分别提升 16.3%、18.4%、18.3%。