DeepSeek最新论文:如何让大模型跑得更快?梁文锋署名
当行业焦点仍停留在“谁的最新模型更聪明”时,DeepSeek已将目光转向更具现实意义的论文命题:如何让模型运行得更快。
6月27日,何让DeepSeek在GitHub低调更新了一篇最新技术论文,大模得更正式介绍其推理加速框架 DSpark。型跑该框架旨在突破大语言模型在高并发场景下的快梁推理效率瓶颈。
从作者署名来看,文锋该成果由 DeepSeek与 北京大学联合发布,署名DeepSeek创始人 梁文锋赫然在列。最新论文不仅开源了DSpark模型权重,论文还同步发布了面向推测解码、何让由算法驱动的大模得更训练代码仓库 DeepSpec。

DeepSeek最新论文截图
此次发布延续了DeepSeek一贯的型跑“硬核技术派”风格,论文标题《DSpark:基于置信度调度的快梁半自回归生成推测解码》(DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation)虽显晦涩,却直指核心痛点。文锋
痛点:自回归生成的效率瓶颈
论文首先剖析了大语言模型(LLM)的核心性能瓶颈。传统LLM采用自回归方式生成文本,即每一个新词元(token)的生成,都需基于所有前置词元完成一次完整的前向传播。这种机制导致:
* 输出越长,等待越久;
* GPU利用率低下;
* 用户等待时间过长。
这在实时对话助手、多轮智能体工作流等对低时延敏感的场景中尤为突出。
目前主流解决方案主要分为两条路线:
1. 自回归草稿模型(如Eagle3)
2. 并行草稿模型(如DFlash)
然而,现有方案均存在生成质量瓶颈、系统效率瓶颈,且普遍缺乏负载自适应校验机制。
方案:DSpark的半自回归架构
针对上述缺陷,DeepSeek提出了 DSpark推测解码框架。该框架采用半自回归架构,通过两套互补机制,巧妙解决了草稿生成与校验环节之间的权衡矛盾,将高吞吐并行生成与自适应负载感知校验机制融为一体。
实测数据:性能显著提升
根据论文披露的受控离线基准测试数据(涵盖数学推理、代码生成、日常闲聊三类任务),DSpark框架相较于自回归草稿模型与并行草稿模型,在单轮平均可接受词元长度上实现了大幅提升。
1. 在线服务实测(DeepSeek-V4)
DeepSeek已将DSpark部署至DeepSeek-V4在线服务系统,基于真实用户流量评估其实际性能。结果显示,在相同吞吐量条件下,相较于现有生产环境基线系统 MTP-1,DSpark将用户端生成速度提升了60%-85%。
2. 跨模型通用性验证
此外,团队将该框架部署于阿里通义千问(Qwen3)系列模型(4B、8B、14B)上,验证了其通用性:
* 对比自回归草稿模型:Qwen3-4B、8B、14B的单轮可接受词元长度分别提升 30.9%、26.7%、30%。
* 对比并行草稿模型:上述模型分别提升 16.3%、18.4%、18.3%。
行业意义:算法创新与开源初心
从技术视角看,这篇论文的核心价值在于通过算法创新显著提升了模型的推理生成速度。在大模型行业逐渐走向落地应用的当下,“更便宜、更快速”的输出能力已成为关键竞争力。
同时,DeepSeek通过全面开源,再次推动了社区发展。社交平台上的开发者评价道:“AI Infra再次被DeepSeek加速了。”
也有用户指出,DeepSeek最令人钦佩之处在于其模型迭代与推理基础设施的同步更新:在发布V4时,不仅提供了论文和代码,还验证了跨模型的通用性。
尽管近期融资消息不断,未来可能面临商业化压力,但通过此次开源,DeepSeek似乎在向业界证明:它仍坚持着开源的初心。
(责任编辑:知识)
-
《问心2》直到看清林逸的遗言,方筱然才发现,周筱风对她有隐瞒
在《问心》的故事脉络中,林逸是一位才华横溢却命运多舛的医生。他虽能妙手回春,挽救众多患者于危难,却无力扭转自己与侄子小睿被扩张型心肌病吞噬的悲剧结局。出于对侄子深沉的爱与愧疚,林逸在家中布满监控,只为
...[详细]
-
当地时间6月28日,德国《图片报》刊文指出,RB莱比锡俱乐部目前没有任何放走迪奥曼德的打算,并计划通过大幅提升薪资待遇来锁定这位核心球员。此前,法国媒体RMC Sport曾报道,迪奥曼德已与巴黎圣日耳
...[详细]
-
【智车派新闻】作为换电基础设施领域的领军者,蔚来汽车此前发布了极具挑战性的“千站计划”,旨在年内在中国市场新增1000座换电站。针对近期外界关注的建设进度问题,蔚来汽车CEO李斌在回应中明确表示,即便
...[详细]
-
李一桐拍新剧过劳穿睡衣挂急诊画面曝光,网友:恐步上赵露思后尘
演员李一桐凭借去年《书卷一梦》与《天地剑心》的高热度表现迅速走红,目前正与陈星旭搭档主演古装大女主剧《金枝》。然而,近日网传她在片场因过度劳累导致身体不适,甚至出现捂着胸口、穿睡衣前往急诊的画面,引发
...[详细]
-
《昨夜将至》她又火了,没江疏影漂亮,没马苏有名,却女主剧不断
悬疑赛道终于迎来佳作。由爱奇艺迷雾剧场倾力打造,佟大为、王佳佳、马苏、任重、江疏影等实力派联袂主演的《昨夜将至》正式开播。起初外界并不看好,但随着剧情推进,口碑逆风翻盘,观众直呼“越看越上头”。开播次
...[详细]
-
2026年上半年,一线城市住宅用地供应全面进入“缩量提质”阶段。市场分化呈现极端态势:核心优质地块引发激烈角逐,动辄上百轮竞价;而远郊地块则陷入流动性困境,频繁底价成交。在“冰火两重天”的市场格局下, ...[详细]
-
【腾讯小范围内测 TenPay Go 面向境外人士来华支付】据财联社 6 月 28 日报道,界面新闻获悉,腾讯正在内部测试一款专为境外人士打造的“来华生活便利助手”。该应用旨在提供涵盖移动支付在内的一 ...[详细]
-
存储芯片价格的全面反弹,正将成本压力从消费电子端迅速传导至AI基础设施核心层。这一趋势迫使超大规模云计算厂商Hyperscalers)重新评估其资本开支CapEx)的回报模型,并引发供应链各环节的“成
...[详细]
-
刚刚过去的五一档,一部成本仅约10万元、全素人班底出演的电影《给阿嬷的情书》犹如一匹黑马,狂揽超过18亿元的高票房截至6月20日)。演员王彦桐在片中饰演漂泊海外八载、至死未能还乡的潮汕“番客”郑木生。
...[详细]
-
有“量”有“质”又有“智” 多维度透视前5个月物流运行“成绩单”
央视网消息:中国物流与采购联合会于6月28日发布2026年1—5月物流运行数据。数据显示,我国物流需求总体保持平稳增长,新旧动能转换加速,结构升级态势持续深化,物流行业正朝着“有量、有质、有智”的高质 ...[详细]

Ins 氛围感辣妈出圈!比例绝佳身材,极简穿搭高级又耐看
首架国产C909公务机CBJ投入商业运营
10部被严重低估的高智商美剧,编剧把观众当成了破案搭档
