DeepSeek最新论文:如何让大模型跑得更快?梁文锋署名
当行业焦点仍停留在“谁的最新模型更聪明”时,DeepSeek已将目光转向更具现实意义的论文命题:如何让模型运行得更快。
6月27日,何让DeepSeek在GitHub低调更新了一篇最新技术论文,大模得更正式介绍其推理加速框架 DSpark。型跑该框架旨在突破大语言模型在高并发场景下的快梁推理效率瓶颈。
从作者署名来看,文锋该成果由 DeepSeek与 北京大学联合发布,署名DeepSeek创始人 梁文锋赫然在列。最新论文不仅开源了DSpark模型权重,论文还同步发布了面向推测解码、何让由算法驱动的大模得更训练代码仓库 DeepSpec。

DeepSeek最新论文截图
此次发布延续了DeepSeek一贯的型跑“硬核技术派”风格,论文标题《DSpark:基于置信度调度的快梁半自回归生成推测解码》(DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation)虽显晦涩,却直指核心痛点。文锋
痛点:自回归生成的效率瓶颈
论文首先剖析了大语言模型(LLM)的核心性能瓶颈。传统LLM采用自回归方式生成文本,即每一个新词元(token)的生成,都需基于所有前置词元完成一次完整的前向传播。这种机制导致:
* 输出越长,等待越久;
* GPU利用率低下;
* 用户等待时间过长。
这在实时对话助手、多轮智能体工作流等对低时延敏感的场景中尤为突出。
目前主流解决方案主要分为两条路线:
1. 自回归草稿模型(如Eagle3)
2. 并行草稿模型(如DFlash)
然而,现有方案均存在生成质量瓶颈、系统效率瓶颈,且普遍缺乏负载自适应校验机制。
方案:DSpark的半自回归架构
针对上述缺陷,DeepSeek提出了 DSpark推测解码框架。该框架采用半自回归架构,通过两套互补机制,巧妙解决了草稿生成与校验环节之间的权衡矛盾,将高吞吐并行生成与自适应负载感知校验机制融为一体。
实测数据:性能显著提升
根据论文披露的受控离线基准测试数据(涵盖数学推理、代码生成、日常闲聊三类任务),DSpark框架相较于自回归草稿模型与并行草稿模型,在单轮平均可接受词元长度上实现了大幅提升。
1. 在线服务实测(DeepSeek-V4)
DeepSeek已将DSpark部署至DeepSeek-V4在线服务系统,基于真实用户流量评估其实际性能。结果显示,在相同吞吐量条件下,相较于现有生产环境基线系统 MTP-1,DSpark将用户端生成速度提升了60%-85%。
2. 跨模型通用性验证
此外,团队将该框架部署于阿里通义千问(Qwen3)系列模型(4B、8B、14B)上,验证了其通用性:
* 对比自回归草稿模型:Qwen3-4B、8B、14B的单轮可接受词元长度分别提升 30.9%、26.7%、30%。
* 对比并行草稿模型:上述模型分别提升 16.3%、18.4%、18.3%。
行业意义:算法创新与开源初心
从技术视角看,这篇论文的核心价值在于通过算法创新显著提升了模型的推理生成速度。在大模型行业逐渐走向落地应用的当下,“更便宜、更快速”的输出能力已成为关键竞争力。
同时,DeepSeek通过全面开源,再次推动了社区发展。社交平台上的开发者评价道:“AI Infra再次被DeepSeek加速了。”
也有用户指出,DeepSeek最令人钦佩之处在于其模型迭代与推理基础设施的同步更新:在发布V4时,不仅提供了论文和代码,还验证了跨模型的通用性。
尽管近期融资消息不断,未来可能面临商业化压力,但通过此次开源,DeepSeek似乎在向业界证明:它仍坚持着开源的初心。
(责任编辑:知识)
-
6月28日,中国物流与采购联合会发布最新数据:今年1—5月,全国社会物流总额达146.6万亿元,按可比价格计算同比增长5.2%。在居民消费韧性持续释放的背景下,直播电商等新业态成为消费物流增长的新引擎
...[详细]
-
美以伊冲突后,伊朗外长首次访问伊拉克,两国将协调在伊拉克南部举行已故伊朗最高领袖哈梅内伊的葬礼部分仪式
当地时间28日,伊拉克外交部发布声明称,伊拉克外交部长侯赛因当日在巴格达会见了来访的伊朗外长阿拉格齐。双方围绕两伊双边关系、地区安全局势及共同关切议题进行了深入磋商。在随后的记者会上,侯赛因强调此次访
...[详细]
-
《昨夜将至》直到韩栋自首,林美月才知,阿妹与她相认的残忍真相
由佟大为、王佳佳、江疏影、马苏、任重等实力派演员联袂出演的悬疑情感大剧《昨夜将至》近日震撼上线。该剧凭借扑朔迷离的剧情架构、亦正亦邪的人物群像以及错综复杂的情感纠葛,营造出极强的烧脑氛围,开播即引爆话
...[详细]
-
据四川发布消息,四川省科技厅近日正式印发实施《四川省进一步促进人工智能产业链发展若干政策》。该政策紧扣“场景牵引、以用促产”核心逻辑,从企业培育、科技攻关、算力数据供给及生态优化等五大维度推出全链条扶 ...[详细]
-
据雷达财经报道,网络流传贾玲执导的《热辣滚烫》与新片《转念花开》采用同期套拍模式。具体操作为:在贾玲体重较大时,集中拍摄两部影片的前半部分;待其减重成功后,再专门拍摄《转念花开》中需要特定体型的“卧底
...[详细]
-
启境GX7智能「阔」五座SUV官图发布,行业首发三折叠纯平大床
IT之家 6 月 28 日讯 —— 启境汽车今日正式发布了旗下新一代智能「阔」五座 SUV——启境 GX7的官方图片。该车型已于 6 月 26 日完成首次亮相。根据官方预热信息,启境 GX7 延续由启
...[详细]
-
由Z世代代表人物、2005年出生的导演凯恩·帕森斯Kane Pixels)执导的《后室》Backrooms),原本被视为一部带有Cult色彩的小众独立电影,却意外实现了票房与口碑的双丰收。这部成本仅1
...[详细]
-
很多人认为,在电脑上复制文件只需按下 Ctrl + C和 Ctrl + V,根本不需要借助任何第三方工具。诚然,在大多数常规场景下,这种说法并无不妥。但对于经常需要在电脑间频繁倒腾文件的用户而言,难免
...[详细]
-
演员李金铭被综艺假婆婆隔空纠缠12年?平台:账号系仿冒已无限期封禁
6月23日晚,抖音黑板报官微发布情况说明,针对网络上流传的某账号自称综艺《明星到我家》中“临时婆婆”,并长期发布演员李金铭相关内容引发争议一事,平台进行了专项核查。经多方核实确认:1. 身份不符:该账 ...[详细]
-
苹果多款产品涨价,二手市场同步上涨,有商家因涨价拒绝发货,晚买一天多花2000元
蓝鲸新闻6月26日讯记者 陆鹏鹏)苹果近期罕见地启动了大规模全球调价,多款核心硬件价格显著上扬。受此影响,二手市场价格同步跟涨,甚至出现“晚买一天多花2000元”的现象。与此同时,部分第三方商家因成本
...[详细]

苹果科技春晚定档9月:iPhone 18 Pro/Ultra同时发布
伊藤润二真人版首播临时换集!原定开篇剧集成谜
齐溪晒二胎宝宝正脸!身材发福明显,4岁大女儿身高已过妈妈腰
男子在家“一丝不挂”,被女邻居拍照发到业主群提醒:在家不要“裸奔”,男子怒斥:你犯法了;律师观点:偷拍不妥涉嫌侵权,建议拉上窗帘
硬汉泰勒·谢里丹口碑最差剧集,收视却爆火打脸评论