DeepSeek-V3 技术全解析

Chapter 01

DeepSeek-V3 全景 — 为什么它震动了行业

2024年12月，一家中国AI公司用不到600万美元的训练成本，打造出了与GPT-4o和Claude 3.5 Sonnet比肩的开源模型。这不是渐进式改良，而是对"大模型必须烧钱"这一行业共识的根本性挑战。

核心震撼

DeepSeek-V3 的训练总成本约 $5.576M（2.788M H800 GPU小时），而同等性能的闭源模型训练成本通常在 $100M+ 量级。这意味着训练顶级大模型的门槛被降低了一个数量级。

关键数字一览

671B

总参数量

37B

每token激活参数

14.8T

训练token数

$5.5M

估算训练成本

为什么 671B 参数只激活 37B？

这就是 Mixture of Experts (MoE) 架构的精髓。想象一家医院：有上百名医生（671B参数），但每个病人只需要看2-3个专科医生（37B激活参数）。

模型拥有256个"专家"网络，但每次处理一个token时，路由机制只选择其中8个专家来参与计算。这样既保证了模型的知识容量（671B），又控制了每次推理的计算量（37B）。

结果：以接近37B稠密模型的推理成本，获得了671B级别的模型能力。

DeepSeek-V3 vs 竞品：效率对比

模型	参数量	估算训练成本	性能水平
DeepSeek-V3	671B (37B active)	~$5.5M	GPT-4o 水平
GPT-4	~1.8T (推测)	~$100M+	基线
Llama 3.1 405B	405B (dense)	~$50M+	略低于 GPT-4o
Claude 3.5 Sonnet	未公开	未公开	GPT-4o 水平

DeepSeek-V3 的效率优势来源于多个技术创新的叠加：MoE 架构减少计算量、MLA 压缩 KV 缓存、FP8 训练降低硬件需求、辅助损失自由的负载均衡提升训练稳定性。

这对行业意味着什么？

对开源社区：证明了开源模型可以达到闭源模型的水平，而且不需要天文数字的资金。

对中小企业：私有化部署顶级大模型变得可行。37B 的激活参数意味着推理成本可控。

对AI研究：不再只有几家巨头能训练前沿模型，研究民主化加速。

对GPU供应链：即使在高端芯片受限的情况下（H800 而非 H100/A100），通过工程创新依然能训练出世界级模型。

Chapter 02

MoE 架构 — 混合专家的精妙设计

Mixture of Experts 不是 DeepSeek 发明的，但 DeepSeek 把它做到了前所未有的精细程度。关键不在于"用了MoE"，而在于"怎么用的MoE"。

view_module

稠密模型 (Dense)

每个token都要通过模型的全部参数。参数量 = 计算量。像一个什么都学的全科医生，每次问诊都动用全部知识。

hub

MoE 模型 (Sparse)

每个token只激活部分"专家"。参数量 >> 计算量。像一家综合医院，上百名专科医生但每个病人只看2-3个科室。

DeepSeekMoE 架构要点

DeepSeek-V3 的每个 Transformer 层包含：1个共享专家（所有token都经过）+ 256个路由专家（每个token选8个）。共享专家捕获通用知识，路由专家处理专业知识。这种"共享+路由"的双轨设计是 DeepSeekMoE 的标志性创新。

DeepSeekMoE 三大创新

grain

细粒度专家分割

将传统MoE的16个大专家拆分为256个小专家。更精细的分工 = 更灵活的组合 = 更高的参数利用率。

share

共享专家机制

1个共享专家始终参与计算，避免路由专家重复学习通用知识（如语法、常识），让路由专家专注于差异化能力。

route

Top-K 路由

每个token从256个专家中选择Top-8。路由器是一个简单的线性层 + softmax，输出每个专家的"适配分数"。

路由机制详解：token 如何选择专家？

路由过程可以分为三步：

计算亲和度 — 路由器对每个token计算它与256个专家的匹配分数：score_i = sigmoid(W_router * h_token)
Top-K 选择 — 从256个分数中选出最高的8个专家
加权融合 — 被选中的8个专家分别处理token，输出按归一化的路由分数加权求和

关键设计：DeepSeek-V3 使用 sigmoid 而非 softmax 作为门控函数。softmax 会让所有专家的分数互相竞争（总和为1），而 sigmoid 让每个专家独立评估，避免了"一个专家得分高 → 其他专家被压制"的零和博弈。

MoE vs Dense：为什么不直接训练 37B 稠密模型？

维度	37B Dense	671B MoE (37B active)
知识容量	受限于 37B	671B 的容量，分布在256个专家中
推理成本	37B 级别	同样是 37B 级别
训练成本	较低	较高（所有参数都需要更新）
专业化	所有知识混在一起	不同专家可以专注不同领域
扩展性	只能增大整体	可以增加专家数量

本质上，MoE 是一种"以训练成本换推理效率"的策略。训练时需要更新更多参数，但推理时每次只用一小部分，性价比更高。

Chapter 03

Multi-head Latent Attention (MLA)

注意力机制是 Transformer 的核心，也是推理时的内存瓶颈。MLA 用低秩压缩优雅地解决了 KV Cache 爆炸问题，同时保持了注意力质量。

问题本质

标准 Multi-Head Attention (MHA) 需要为每个token存储完整的 Key 和 Value 向量。对于长序列推理，KV Cache 的内存占用会线性增长，成为部署大模型时的首要瓶颈。128K 上下文 + 多头注意力 = 每个请求都需要数十GB的KV缓存。

三种注意力方案对比

view_headline

MHA（标准）

每个注意力头独立的 K、V。内存最大，质量最好。

KV Cache: 100% (基线)

compress

GQA（分组查询）

多个查询头共享一组 K、V。内存减少但有质量损失。Llama 2/3 使用。

KV Cache: ~12.5-25%

memory

MLA（DeepSeek）

K、V 联合压缩到低维潜在空间，推理时再解压。极致压缩且不损质量。

KV Cache: ~5-10%

MLA 工作原理：压缩-存储-解压

MLA 的核心思想可以用三步概括：

压缩（编码） — 将高维的 K、V 向量联合投影到一个低维的"潜在向量" c_KV。投影矩阵 W_DKV 将维度从 n_h * d_h 压缩到 d_c（d_c 远小于 n_h * d_h）。
存储 — KV Cache 中只存储压缩后的 c_KV，而不是完整的 K 和 V。这就是内存节省的来源。
解压（解码） — 需要计算注意力时，将 c_KV 通过上投影矩阵还原为 K 和 V，然后正常计算注意力。

数学直觉：如果 K 和 V 之间存在相关性（它们确实高度相关，因为都来自同一个输入），那么它们的联合信息可以用更少的维度来表示。这类似于 PCA 降维——用主成分来近似完整信息。

# MLA 简化示意
# 编码阶段：压缩 K、V
c_kv = W_DKV(h)          # [d_model] -> [d_c], d_c << d_model

# KV Cache 只存 c_kv，大幅节省内存
cache.store(c_kv)

# 解码阶段：还原 K、V
K = W_UK(c_kv)            # [d_c] -> [n_heads, d_head]
V = W_UV(c_kv)            # [d_c] -> [n_heads, d_head]

# 正常计算注意力
attn = softmax(Q @ K.T / sqrt(d)) @ V
        

MLA 如何处理位置编码（RoPE）？

标准 RoPE 位置编码直接作用在 K 上，这意味着 K 不再能被简单压缩（位置信息和内容信息交织在一起）。

MLA 的解决方案很巧妙：解耦 RoPE。

将查询 Q 分为两部分：内容部分（从压缩向量 c_Q 解压）+ 位置部分（单独的RoPE向量）
K 同样分为两部分：内容部分（从 c_KV 解压）+ 位置部分（共享的RoPE向量）
位置部分的 K 维度很小，额外的缓存开销可以忽略不计

这样，KV Cache 存储的是不含位置信息的纯内容压缩向量，加上极小的位置向量，总内存依然大幅低于标准 MHA。

MLA vs GQA：为什么 MLA 更好？

维度	GQA	MLA
压缩方式	多头共享（粗粒度）	低秩投影（连续空间）
信息损失	不同头被迫用相同K/V	理论上可以无损还原
KV缓存	减少到 1/g（g=组数）	减少到 d_c/d_model
灵活性	组数是固定超参数	压缩维度可灵活调节
计算开销	无额外计算	需要解压计算（可优化吸收进注意力矩阵）

GQA 的问题在于：它强制多个注意力头共享完全相同的 K 和 V，这是一种"硬共享"。而 MLA 通过低秩投影实现了"软共享"——不同头可以从同一个压缩表示中解码出不同的 K 和 V。

Chapter 04

无辅助损失的负载均衡

MoE 架构的阿喀琉斯之踵：如果所有token都涌向少数几个"明星专家"，其他专家就会被闲置。传统方案通过辅助损失来惩罚不均衡，但这种方法自身就有严重副作用。

负载均衡问题

warning

专家坍缩问题

训练初期，某些专家因随机优势获得更多token → 更多训练 → 变得更强 → 吸引更多token。正反馈循环导致"富者愈富"，最终大部分专家几乎不被使用。

report

传统方案的代价

辅助损失（auxiliary loss）在主损失函数上加一个均衡惩罚项。问题：这个额外的损失会干扰模型真正的学习目标，降低最终模型质量。调节系数太大→质量受损，太小→均衡失败。

DeepSeek 的突破

DeepSeek-V3 提出了无辅助损失（Auxiliary-Loss-Free）的负载均衡策略：不在损失函数中加任何均衡项，而是通过动态偏置项在路由层面实现均衡。这样既保证了负载均衡，又完全不干扰模型的训练目标。

动态偏置机制详解

核心思想非常简单且优雅：

为每个专家维护一个偏置项 b_i（初始化为0）
路由计算时：专家的最终得分 = 原始亲和度 + 偏置项 b_i
每隔固定步数更新偏置：
- 如果专家 i 的负载超过平均值 → b_i 减小（降低被选中概率）
- 如果专家 i 的负载低于平均值 → b_i 增大（提高被选中概率）

关键：偏置项只影响 Top-K 选择（决定选哪些专家），不影响选中后的门控权重（由原始亲和度决定）。这意味着均衡机制只改变"谁被选中"，不改变"被选中后贡献多少"。

# 路由计算（简化）
raw_scores = sigmoid(W_router @ token_hidden)     # 原始亲和度
adjusted_scores = raw_scores + bias                   # 加偏置用于选择
top_k_experts = topk(adjusted_scores, k=8)          # 选择 Top-8
gate_weights = normalize(raw_scores[top_k_experts])  # 门控权重用原始分数

# 定期更新偏置
if step % update_interval == 0:
    for i in range(num_experts):
        if load[i] > avg_load:
            bias[i] -= gamma
        else:
            bias[i] += gamma
        

辅助损失 vs 无辅助损失：实验对比

方案	负载均衡	模型质量影响	调参难度
辅助损失（传统）	通过惩罚项强制均衡	有损（额外梯度信号干扰主目标）	高（需要仔细调 alpha 系数）
无辅助损失（DeepSeek）	通过偏置项引导均衡	无损（不参与梯度计算）	低（gamma 不敏感）

实验结果显示，无辅助损失方案在保持专家负载均衡的同时，模型在多个 benchmark 上的表现均优于使用辅助损失的版本。这证明辅助损失确实在损害模型质量。

补充机制：序列级均衡损失

虽然主要均衡不依赖辅助损失，但 DeepSeek-V3 仍保留了一个极小的序列级均衡损失作为安全网：

确保在单个序列内不会出现极端不均衡
系数极小（不影响模型质量），仅防止灾难性坍缩
类似于"安全气囊"——正常情况下不起作用，极端情况下兜底

此外还引入了节点级均衡限制，确保不同计算节点之间的通信负载均衡，这对分布式训练至关重要。

Chapter 05

Multi-Token Prediction (MTP)

传统语言模型"一次预测一个token"——这既浪费了训练信号，也限制了推理速度。MTP 让模型同时预测多个未来token，一箭双雕。

arrow_forward

传统：Next-Token Prediction

给定 "The cat sat on the"，只预测下一个token "mat"。每个位置只提供一个训练信号。

layers

MTP：Multi-Token Prediction

同时预测 "mat"、"."、"The"……每个位置提供多个训练信号。更密集的学习信号 + 推理可加速。

双重收益

训练端：更密集的训练信号让模型更快地学习到"前瞻规划"能力，提升表征质量。推理端：MTP 模块可用于推测解码（speculative decoding），一次验证多个token，显著提升生成速度。

MTP 架构：如何实现多token预测？

DeepSeek-V3 的 MTP 实现非常精巧，采用了顺序预测（而非独立预测）的设计：

主模型照常预测第 t+1 个 token
MTP 模块 1：接收主模型在位置 t 的隐状态 + token t+1 的 embedding → 预测 token t+2
MTP 模块 2：接收模块1在位置 t 的输出 + token t+2 的 embedding → 预测 token t+3
以此类推……

每个 MTP 模块是一个轻量级的 Transformer 层，与主模型共享 embedding 层和输出头。

# MTP 模块结构（简化）
# 主模型输出
h_main = main_model(input_tokens)       # 主模型隐状态
pred_1 = output_head(h_main)              # 预测 token t+1

# MTP 模块 k：预测 token t+k+1
combined = concat(h_prev, embed(token_t_k))  # 融合上层输出和当前embedding
h_k = mtp_transformer_k(combined)             # 轻量Transformer层
pred_k_1 = shared_output_head(h_k)              # 共享输出头预测下一个
        

为什么是顺序预测而非独立预测？因为自然语言中相邻token高度相关。顺序预测允许第k个预测利用前k-1个预测的信息，比完全独立的并行预测更准确。

推测解码：MTP 如何加速推理？

推测解码（Speculative Decoding）的基本思想：

草稿阶段 — MTP 模块快速"猜测"接下来的 k 个 token（成本很低，因为 MTP 模块很小）
验证阶段 — 主模型一次性验证这 k 个猜测是否正确
接受/拒绝 — 如果前 n 个猜测都正确，直接接受；从第一个错误的位置开始重新生成

加速原理：验证 k 个 token 的成本 ≈ 生成 1 个 token 的成本（都是一次前向传播），但如果大部分猜测正确，就相当于"一步走了k步"。

DeepSeek-V3 的 MTP 模块预测接受率约 85-90%，这意味着推理速度提升约 1.8x（TPS 从基础的 ~50 提升到 ~90）。

MTP 对训练质量的影响

MTP 在训练阶段的主要价值不是加速，而是提升模型的表征质量：

信号密度 — 每个位置从1个训练信号变成多个，模型从同样的数据中学到更多
前瞻规划 — 要预测未来多个token，模型被迫学习更长距离的依赖关系
表征优化 — 中间层的隐状态需要同时包含对多步未来的预测能力，促使模型学习更丰富的表征

消融实验显示，加入 MTP 后，模型在需要"深度规划"的任务（如数学推理、代码生成）上提升尤为明显。这符合直觉——这些任务正是需要"提前想好几步"的场景。

Chapter 06

FP8 混合精度训练

数字精度是训练大模型的隐形成本。DeepSeek-V3 是首个在如此大规模上成功使用 FP8 训练的模型，直接将训练效率提升了约40%。

数值精度光谱

FP32

32位 · 传统训练

基线精度

BF16

16位 · 主流方案

2x 加速

FP8

8位 · DeepSeek-V3

~4x 加速

INT4

4位 · 推理优化

目前主要用于推理

为什么 FP8 训练这么难？

FP8 只有 8 位，其中指数部分 4-5 位、尾数部分 2-3 位。这意味着它只能表示约 256 个不同的数值，而 BF16 可以表示 65,536 个。精度的大幅下降会导致梯度计算失真、数值溢出/下溢、训练不稳定。DeepSeek-V3 通过精细的量化策略解决了这些问题。

细粒度量化策略详解

DeepSeek-V3 不是简单地将所有计算换成 FP8，而是采用了分层分组的精细策略：

1. 哪些用 FP8：

GEMM（矩阵乘法）运算的核心计算——这是计算量最大的部分
前向传播中的线性变换
反向传播中的梯度矩阵乘法

2. 哪些保持高精度：

累加器 — GEMM 的中间累加用 FP32，避免误差积累
注意力计算 — softmax 和注意力分数用 BF16/FP32
归一化层 — LayerNorm / RMSNorm 用 FP32
路由器 — 专家选择的门控计算用 FP32（均衡对精度敏感）
优化器状态 — Adam 的一阶矩和二阶矩用 FP32

3. 分组量化（Per-Group Scaling）：

不是对整个张量用一个缩放因子，而是将张量分成小块（如 128 个元素一组）
每组独立计算缩放因子，确保局部精度
类似于图像压缩中的分块 JPEG 而不是全图压缩

训练稳定性验证

DeepSeek 团队通过严格的实验验证了 FP8 训练的等价性：

指标	BF16 基线	FP8 混合精度	差异
训练损失曲线	基线	几乎完全重叠	< 0.25% 偏差
Benchmark 性能	基线	统计上无差异	在噪声范围内
训练吞吐量	基线	~1.4x 提升	约40%加速
显存占用	基线	~0.75x	约25%节省

无损失质量下降 + 40%效率提升——这是 FP8 训练在 671B 规模模型上的首次成功验证，对整个行业都有重大参考价值。

FP8 的行业意义

DeepSeek-V3 的 FP8 训练成功对行业有三层影响：

直接降本 — 同等算力下训练速度提升 40%，等效于 GPU 成本降低 ~30%
硬件红利释放 — H100/H800 的 FP8 Tensor Core 终于有了成熟的训练方案（此前主要用于推理）
后续芯片设计 — 验证了低精度训练的可行性，未来 AI 芯片可以更激进地投资低精度计算单元

Chapter 07

训练流程全解析

从原始数据到可用的大模型，DeepSeek-V3 的训练流水线包含四个精心设计的阶段，每个阶段都有独特的设计考量。

Pre-training → Long Context Extension → SFT → RL (GRPO)

阶段一：预训练（Pre-training）

第一阶段：14.8T tokens

在海量多样化文本上训练，建立基础语言能力。上下文窗口 4K。数据配比经过精心调优：英文、中文、代码、数学、多语言等。

第二阶段：额外高质量数据

在预训练末期增加高质量数据（数学、代码、推理数据）的比例，同时将上下文窗口逐步扩展到 128K。类似"精读"阶段。

预训练数据工程细节

数据处理流程：

Document-level packing — 多个文档拼接为一个训练序列，减少 padding 浪费
FIM (Fill-In-the-Middle) — 部分数据用"完形填空"格式训练，增强代码补全能力
数据去重 — 多级去重（URL去重、MinHash去重、精确去重）
质量过滤 — 基于规则 + 基于模型的质量评分

Tokenizer：基于 Byte-level BPE，词表大小 128K。中英文 tokenizer 效率均优于 Llama 系列。

阶段二：监督微调（SFT）

使用约 150 万条高质量指令数据对模型进行微调，让模型从"预测下一个token"进化为"理解人类意图并有条理地回答"。

知识蒸馏的妙用

DeepSeek-V3 的 SFT 数据中包含大量来自 DeepSeek-R1（推理模型）的蒸馏数据。R1 擅长长链推理，通过蒸馏，V3 获得了 R1 的部分推理能力，同时保持了通用对话的流畅性。这是一种"跨模型知识迁移"的聪明策略。

SFT 数据构成

数据类型	来源	作用
数学推理	R1 蒸馏 + 人工标注	增强逻辑推理和数学解题能力
代码	R1 蒸馏 + 代码评测	提升编程和调试能力
写作创意	人工标注	保持文本流畅度和创造力
知识问答	检索增强 + 人工验证	确保事实准确性
多轮对话	人工构造 + 模型自我对弈	上下文跟踪和指令遵循

阶段三：强化学习（GRPO）

SFT 让模型"能回答"，强化学习让模型"回答得更好"。DeepSeek-V3 使用 GRPO（Group Relative Policy Optimization）替代传统的 PPO。

GRPO vs PPO：为什么不用 PPO？

PPO 的问题：

需要训练一个单独的 Reward Model（额外的 GPU 资源）
Reward Model 容易被"游戏化"（reward hacking）
训练不稳定，需要大量超参调优

GRPO 的创新：

无需 Reward Model — 对同一个问题生成一组回答（group），互相比较打分
相对评估 — 不是给每个回答绝对分数，而是看"谁比谁好"
节省资源 — 去掉了 Critic 模型（PPO 中约占 50% 算力）

奖励信号来源：

规则奖励 — 数学题可以验算答案对错、代码可以跑测试用例
模型奖励 — 主观题用偏好模型打分

训练基础设施与工程

硬件：

2048 张 NVIDIA H800 GPU
集群内 NVLink + NVSwitch 通信
集群间 InfiniBand 互联

并行策略：

Pipeline Parallelism — 模型的不同层分布在不同 GPU 上
Expert Parallelism — MoE 的不同专家分布在不同节点
Data Parallelism — 同一batch数据分布在不同副本
自研 DualPipe 算法优化流水线并行的通信-计算重叠

训练总耗时：约 2.788M H800 GPU 小时。按 H800 的云端价格（~$2/h）估算，总成本约 $5.576M。

Chapter 08

性能评测与行业影响

数字说话：DeepSeek-V3 在多个核心 benchmark 上达到了与 GPT-4o 和 Claude 3.5 Sonnet 相当甚至更好的水平，而且是完全开源的。

核心 Benchmark 对比

Benchmark	DeepSeek-V3	GPT-4o	Claude 3.5 Sonnet	Llama 3.1 405B
MMLU (知识)	88.5	87.2	88.3	84.4
MMLU-Pro	75.9	72.6	78.0	61.6
MATH-500	90.2	74.6	78.3	73.8
AIME 2024 (竞赛数学)	39.2	9.3	16.0	23.3
HumanEval (代码)	82.6	90.2	88.4	61.0
LiveCodeBench	40.5	33.4	36.3	28.4
Codeforces (竞赛编程)	51.6	23.6	20.3	21.0
GPQA (科学推理)	59.1	53.6	59.4	51.1

关键发现

DeepSeek-V3 在数学和竞赛编程上显著领先所有闭源模型，在通用知识和科学推理上持平或接近，在标准代码生成（HumanEval）上略低于 GPT-4o。整体而言，这是首个在综合能力上真正比肩前沿闭源模型的开源模型。

强势领域分析

functions

数学推理

MATH-500 得分 90.2，AIME 2024 得分 39.2，大幅领先。得益于 R1 蒸馏带来的链式推理能力。

code

竞赛编程

Codeforces 评分 51.6（约 1997 Elo），远超 GPT-4o 的 23.6。在需要算法设计的复杂编程任务上表现突出。

translate

中文能力

在中文 benchmark（C-Eval、CLUEWSC 等）上领先所有对手，中英文能力均衡发展。

成本效率：不只是"便宜"

维度	DeepSeek-V3	典型闭源模型	差距
训练成本	~$5.5M	$100M+	~20x 更便宜
推理成本（API）	$0.27/M input tokens	$5-15/M input tokens	~20-50x 更便宜
激活参数	37B	未知（推测 200B+）	推理更高效
开源	完全开源	闭源	可私有化部署

DeepSeek-V3 的 API 定价是业界最低之一：输入 $0.27/M tokens，输出 $1.10/M tokens。这不仅仅是"便宜"，而是重新定义了顶级大模型的成本结构。

对开源 AI 生态的影响

1. 打破"开源=二流"的认知

在 DeepSeek-V3 之前，开源模型（即使是 Llama 3.1 405B）与前沿闭源模型之间仍有明显差距。V3 证明了在正确的架构创新下，开源可以追平闭源。

2. 技术外溢效应

MLA、无辅助损失负载均衡、FP8 训练等技术方案已开始被其他团队采用
完整的技术报告提供了详尽的实现细节，降低了复现门槛

3. 产业格局影响

API 定价竞争加剧，闭源模型的定价压力增大
私有化部署变得更有吸引力（同等性能，完全可控）
中小企业和研究机构获得了前所未有的模型能力获取途径

局限性与未来方向

当前局限：

部署门槛 — 671B 参数模型仍需要多卡部署（即使只激活37B），对硬件有一定要求
标准代码生成 — 在 HumanEval 等标准 benchmark 上略低于 GPT-4o
多模态 — V3 是纯文本模型，不支持图像/音频理解
长文档处理 — 128K 上下文已够用，但随着 context 增长 MLA 的优势更明显

未来方向：

多模态扩展（DeepSeek 已有 VL 系列）
更激进的 MoE 稀疏化（进一步降低推理成本）
与 R1 推理能力的更深度融合
端侧部署的量化优化

结语

DeepSeek-V3 不只是一个模型，它是一个信号——顶级AI不再是少数巨头的专利。通过 MoE、MLA、无损负载均衡、MTP、FP8 训练五大创新的协同作用，它用 $5.5M 实现了曾经需要 $100M+ 才能达到的性能水平。对于整个AI行业，这既是技术突破，也是范式转变。

DeepSeek-V3
技术全解析

DeepSeek-V3 全景 — 为什么它震动了行业

关键数字一览

核心创新

MoE 架构 — 混合专家的精妙设计

稠密模型 (Dense)

MoE 模型 (Sparse)

DeepSeekMoE 三大创新

细粒度专家分割

共享专家机制

Top-K 路由

Multi-head Latent Attention (MLA)

三种注意力方案对比

MHA（标准）

GQA（分组查询）

MLA（DeepSeek）

无辅助损失的负载均衡

负载均衡问题

专家坍缩问题

传统方案的代价

Multi-Token Prediction (MTP)

传统：Next-Token Prediction

MTP：Multi-Token Prediction

FP8 混合精度训练

数值精度光谱

训练与评测

训练流程全解析

阶段一：预训练（Pre-training）

第一阶段：14.8T tokens

第二阶段：额外高质量数据

阶段二：监督微调（SFT）

阶段三：强化学习（GRPO）

性能评测与行业影响

核心 Benchmark 对比

强势领域分析

数学推理

竞赛编程

中文能力

DeepSeek-V3技术全解析

DeepSeek-V3 全景 — 为什么它震动了行业

关键数字一览

核心创新

MoE 架构 — 混合专家的精妙设计

稠密模型 (Dense)

MoE 模型 (Sparse)

DeepSeekMoE 三大创新

细粒度专家分割

共享专家机制

Top-K 路由

Multi-head Latent Attention (MLA)

三种注意力方案对比

MHA（标准）

GQA（分组查询）

MLA（DeepSeek）

无辅助损失的负载均衡

负载均衡问题

专家坍缩问题

传统方案的代价

Multi-Token Prediction (MTP)

传统：Next-Token Prediction

MTP：Multi-Token Prediction

FP8 混合精度训练

数值精度光谱

训练与评测

训练流程全解析

阶段一：预训练（Pre-training）

第一阶段：14.8T tokens

第二阶段：额外高质量数据

阶段二：监督微调（SFT）

阶段三：强化学习（GRPO）

性能评测与行业影响

核心 Benchmark 对比

强势领域分析

数学推理

竞赛编程

中文能力

DeepSeek-V3
技术全解析