今日,DeepSeek 联合北京大学发布了DSpark推理加速框架,旨在解决大语言模型在高并发生产环境中的推理效率问题。该框架已应用于DeepSeek-V4-Flash和DeepSeek-V4-Pro的预览版服务引擎中,在同等吞吐量水平下,单用户生成速度提升了60%至85%。相关论文、训练代码等已在GitHub上开源。

大语言模型生成文本时采用自回归方式,每生成一个新token都需要一次完整的前向传播,这导致推理延迟随输出长度线性增长。推测解码技术通过一个小模型快速生成候选token,再由大模型批量验证,从而提升生成速度。然而,推测解码的实际加速效果受制于候选生成质量和验证阶段对目标模型计算资源的占用。

目前主流方案分为两派:自回归式草稿模型逐token串行生成候选序列,依赖关系建模能力强但生成延迟随候选长度线性增长;并行式草稿模型则在一个前向传播内一次性产出全部候选token,生成延迟几乎与候选长度无关。但并行生成每个位置时无法依赖先前已采样的token,导致接受率迅速衰减,浪费目标模型计算资源。

为解决上述瓶颈,DSpark提出了两项互补机制。在候选生成阶段,DSpark采用半自回归架构,主干网络一次性产出所有候选位置的隐藏状态和基础logits,随后轻量级顺序模块逐token注入前缀依赖信息。实验表明,少量自回归依赖的引入在参数效率上优于单纯堆叠并行层。








