DeepSeek 技术报告 · 68页深度解读

DeepSeek-V3
技术全解析

基于 DeepSeek-V3 技术报告(68页),从 MoE 架构到 MLA 注意力、从无损负载均衡到 FP8 训练,8章节拆解这个震动行业的开源模型。

article68页精读 grid_view8 章节 architecture671B 参数 payments$5.5M 训练成本

Chapter 01

DeepSeek-V3 全景 — 为什么它震动了行业

2024年12月,一家中国AI公司用不到600万美元的训练成本,打造出了与GPT-4o和Claude 3.5 Sonnet比肩的开源模型。这不是渐进式改良,而是对"大模型必须烧钱"这一行业共识的根本性挑战。

核心震撼

DeepSeek-V3 的训练总成本约 $5.576M(2.788M H800 GPU小时),而同等性能的闭源模型训练成本通常在 $100M+ 量级。这意味着训练顶级大模型的门槛被降低了一个数量级。

关键数字一览

671B

总参数量

37B

每token激活参数

14.8T

训练token数

$5.5M

估算训练成本

为什么 671B 参数只激活 37B?

这就是 Mixture of Experts (MoE) 架构的精髓。想象一家医院:有上百名医生(671B参数),但每个病人只需要看2-3个专科医生(37B激活参数)。

模型拥有256个"专家"网络,但每次处理一个token时,路由机制只选择其中8个专家来参与计算。这样既保证了模型的知识容量(671B),又控制了每次推理的计算量(37B)。

结果:以接近37B稠密模型的推理成本,获得了671B级别的模型能力。

DeepSeek-V3 vs 竞品:效率对比
模型参数量估算训练成本性能水平
DeepSeek-V3671B (37B active)~$5.5MGPT-4o 水平
GPT-4~1.8T (推测)~$100M+基线
Llama 3.1 405B405B (dense)~$50M+略低于 GPT-4o
Claude 3.5 Sonnet未公开未公开GPT-4o 水平

DeepSeek-V3 的效率优势来源于多个技术创新的叠加:MoE 架构减少计算量、MLA 压缩 KV 缓存、FP8 训练降低硬件需求、辅助损失自由的负载均衡提升训练稳定性。

这对行业意味着什么?

对开源社区:证明了开源模型可以达到闭源模型的水平,而且不需要天文数字的资金。

对中小企业:私有化部署顶级大模型变得可行。37B 的激活参数意味着推理成本可控。

对AI研究:不再只有几家巨头能训练前沿模型,研究民主化加速。

对GPU供应链:即使在高端芯片受限的情况下(H800 而非 H100/A100),通过工程创新依然能训练出世界级模型。

PART II

核心创新

MoE, MLA, 无损负载均衡, 多Token预测, FP8训练

Chapter 02

MoE 架构 — 混合专家的精妙设计

Mixture of Experts 不是 DeepSeek 发明的,但 DeepSeek 把它做到了前所未有的精细程度。关键不在于"用了MoE",而在于"怎么用的MoE"。

view_module

稠密模型 (Dense)

每个token都要通过模型的全部参数。参数量 = 计算量。像一个什么都学的全科医生,每次问诊都动用全部知识。

hub

MoE 模型 (Sparse)

每个token只激活部分"专家"。参数量 >> 计算量。像一家综合医院,上百名专科医生但每个病人只看2-3个科室。

DeepSeekMoE 架构要点

DeepSeek-V3 的每个 Transformer 层包含:1个共享专家(所有token都经过)+ 256个路由专家(每个token选8个)。共享专家捕获通用知识,路由专家处理专业知识。这种"共享+路由"的双轨设计是 DeepSeekMoE 的标志性创新。

DeepSeekMoE 三大创新

grain

细粒度专家分割

将传统MoE的16个大专家拆分为256个小专家。更精细的分工 = 更灵活的组合 = 更高的参数利用率。

share

共享专家机制

1个共享专家始终参与计算,避免路由专家重复学习通用知识(如语法、常识),让路由专家专注于差异化能力。

route

Top-K 路由

每个token从256个专家中选择Top-8。路由器是一个简单的线性层 + softmax,输出每个专家的"适配分数"。

路由机制详解:token 如何选择专家?

路由过程可以分为三步:

  1. 计算亲和度 — 路由器对每个token计算它与256个专家的匹配分数:score_i = sigmoid(W_router * h_token)
  2. Top-K 选择 — 从256个分数中选出最高的8个专家
  3. 加权融合 — 被选中的8个专家分别处理token,输出按归一化的路由分数加权求和

关键设计:DeepSeek-V3 使用 sigmoid 而非 softmax 作为门控函数。softmax 会让所有专家的分数互相竞争(总和为1),而 sigmoid 让每个专家独立评估,避免了"一个专家得分高 → 其他专家被压制"的零和博弈。

MoE vs Dense:为什么不直接训练 37B 稠密模型?
维度37B Dense671B MoE (37B active)
知识容量受限于 37B671B 的容量,分布在256个专家中
推理成本37B 级别同样是 37B 级别
训练成本较低较高(所有参数都需要更新)
专业化所有知识混在一起不同专家可以专注不同领域
扩展性只能增大整体可以增加专家数量

本质上,MoE 是一种"以训练成本换推理效率"的策略。训练时需要更新更多参数,但推理时每次只用一小部分,性价比更高。

Chapter 03

Multi-head Latent Attention (MLA)

注意力机制是 Transformer 的核心,也是推理时的内存瓶颈。MLA 用低秩压缩优雅地解决了 KV Cache 爆炸问题,同时保持了注意力质量。

问题本质

标准 Multi-Head Attention (MHA) 需要为每个token存储完整的 Key 和 Value 向量。对于长序列推理,KV Cache 的内存占用会线性增长,成为部署大模型时的首要瓶颈。128K 上下文 + 多头注意力 = 每个请求都需要数十GB的KV缓存。

三种注意力方案对比

view_headline

MHA(标准)

每个注意力头独立的 K、V。内存最大,质量最好。

KV Cache: 100% (基线)

compress

GQA(分组查询)

多个查询头共享一组 K、V。内存减少但有质量损失。Llama 2/3 使用。

KV Cache: ~12.5-25%

memory

MLA(DeepSeek)

K、V 联合压缩到低维潜在空间,推理时再解压。极致压缩且不损质量。

KV Cache: ~5-10%

MLA 工作原理:压缩-存储-解压

MLA 的核心思想可以用三步概括:

  1. 压缩(编码) — 将高维的 K、V 向量联合投影到一个低维的"潜在向量" c_KV。投影矩阵 W_DKV 将维度从 n_h * d_h 压缩到 d_c(d_c 远小于 n_h * d_h)。
  2. 存储 — KV Cache 中只存储压缩后的 c_KV,而不是完整的 K 和 V。这就是内存节省的来源。
  3. 解压(解码) — 需要计算注意力时,将 c_KV 通过上投影矩阵还原为 K 和 V,然后正常计算注意力。

数学直觉:如果 K 和 V 之间存在相关性(它们确实高度相关,因为都来自同一个输入),那么它们的联合信息可以用更少的维度来表示。这类似于 PCA 降维——用主成分来近似完整信息。

# MLA 简化示意 # 编码阶段:压缩 K、V c_kv = W_DKV(h) # [d_model] -> [d_c], d_c << d_model # KV Cache 只存 c_kv,大幅节省内存 cache.store(c_kv) # 解码阶段:还原 K、V K = W_UK(c_kv) # [d_c] -> [n_heads, d_head] V = W_UV(c_kv) # [d_c] -> [n_heads, d_head] # 正常计算注意力 attn = softmax(Q @ K.T / sqrt(d)) @ V
MLA 如何处理位置编码(RoPE)?

标准 RoPE 位置编码直接作用在 K 上,这意味着 K 不再能被简单压缩(位置信息和内容信息交织在一起)。

MLA 的解决方案很巧妙:解耦 RoPE

  • 将查询 Q 分为两部分:内容部分(从压缩向量 c_Q 解压)+ 位置部分(单独的RoPE向量)
  • K 同样分为两部分:内容部分(从 c_KV 解压)+ 位置部分(共享的RoPE向量)
  • 位置部分的 K 维度很小,额外的缓存开销可以忽略不计

这样,KV Cache 存储的是不含位置信息的纯内容压缩向量,加上极小的位置向量,总内存依然大幅低于标准 MHA。

MLA vs GQA:为什么 MLA 更好?
维度GQAMLA
压缩方式多头共享(粗粒度)低秩投影(连续空间)
信息损失不同头被迫用相同K/V理论上可以无损还原
KV缓存减少到 1/g(g=组数)减少到 d_c/d_model
灵活性组数是固定超参数压缩维度可灵活调节
计算开销无额外计算需要解压计算(可优化吸收进注意力矩阵)

GQA 的问题在于:它强制多个注意力头共享完全相同的 K 和 V,这是一种"硬共享"。而 MLA 通过低秩投影实现了"软共享"——不同头可以从同一个压缩表示中解码出不同的 K 和 V。

Chapter 04

无辅助损失的负载均衡

MoE 架构的阿喀琉斯之踵:如果所有token都涌向少数几个"明星专家",其他专家就会被闲置。传统方案通过辅助损失来惩罚不均衡,但这种方法自身就有严重副作用。

负载均衡问题

warning

专家坍缩问题

训练初期,某些专家因随机优势获得更多token → 更多训练 → 变得更强 → 吸引更多token。正反馈循环导致"富者愈富",最终大部分专家几乎不被使用。

report

传统方案的代价

辅助损失(auxiliary loss)在主损失函数上加一个均衡惩罚项。问题:这个额外的损失会干扰模型真正的学习目标,降低最终模型质量。调节系数太大→质量受损,太小→均衡失败。

DeepSeek 的突破

DeepSeek-V3 提出了无辅助损失(Auxiliary-Loss-Free)的负载均衡策略:不在损失函数中加任何均衡项,而是通过动态偏置项在路由层面实现均衡。这样既保证了负载均衡,又完全不干扰模型的训练目标。

动态偏置机制详解

核心思想非常简单且优雅:

  1. 为每个专家维护一个偏置项 b_i(初始化为0)
  2. 路由计算时:专家的最终得分 = 原始亲和度 + 偏置项 b_i
  3. 每隔固定步数更新偏置
    • 如果专家 i 的负载超过平均值 → b_i 减小(降低被选中概率)
    • 如果专家 i 的负载低于平均值 → b_i 增大(提高被选中概率)

关键:偏置项只影响 Top-K 选择(决定选哪些专家),不影响选中后的门控权重(由原始亲和度决定)。这意味着均衡机制只改变"谁被选中",不改变"被选中后贡献多少"。

# 路由计算(简化) raw_scores = sigmoid(W_router @ token_hidden) # 原始亲和度 adjusted_scores = raw_scores + bias # 加偏置用于选择 top_k_experts = topk(adjusted_scores, k=8) # 选择 Top-8 gate_weights = normalize(raw_scores[top_k_experts]) # 门控权重用原始分数 # 定期更新偏置 if step % update_interval == 0: for i in range(num_experts): if load[i] > avg_load: bias[i] -= gamma else: bias[i] += gamma
辅助损失 vs 无辅助损失:实验对比
方案负载均衡模型质量影响调参难度
辅助损失(传统)通过惩罚项强制均衡有损(额外梯度信号干扰主目标)高(需要仔细调 alpha 系数)
无辅助损失(DeepSeek)通过偏置项引导均衡无损(不参与梯度计算)低(gamma 不敏感)

实验结果显示,无辅助损失方案在保持专家负载均衡的同时,模型在多个 benchmark 上的表现均优于使用辅助损失的版本。这证明辅助损失确实在损害模型质量。

补充机制:序列级均衡损失

虽然主要均衡不依赖辅助损失,但 DeepSeek-V3 仍保留了一个极小的序列级均衡损失作为安全网:

  • 确保在单个序列内不会出现极端不均衡
  • 系数极小(不影响模型质量),仅防止灾难性坍缩
  • 类似于"安全气囊"——正常情况下不起作用,极端情况下兜底

此外还引入了节点级均衡限制,确保不同计算节点之间的通信负载均衡,这对分布式训练至关重要。

Chapter 05

Multi-Token Prediction (MTP)

传统语言模型"一次预测一个token"——这既浪费了训练信号,也限制了推理速度。MTP 让模型同时预测多个未来token,一箭双雕。

arrow_forward

传统:Next-Token Prediction

给定 "The cat sat on the",只预测下一个token "mat"。每个位置只提供一个训练信号。

layers

MTP:Multi-Token Prediction

同时预测 "mat"、"."、"The"……每个位置提供多个训练信号。更密集的学习信号 + 推理可加速。

双重收益

训练端:更密集的训练信号让模型更快地学习到"前瞻规划"能力,提升表征质量。推理端:MTP 模块可用于推测解码(speculative decoding),一次验证多个token,显著提升生成速度。

MTP 架构:如何实现多token预测?

DeepSeek-V3 的 MTP 实现非常精巧,采用了顺序预测(而非独立预测)的设计:

  1. 主模型照常预测第 t+1 个 token
  2. MTP 模块 1:接收主模型在位置 t 的隐状态 + token t+1 的 embedding → 预测 token t+2
  3. MTP 模块 2:接收模块1在位置 t 的输出 + token t+2 的 embedding → 预测 token t+3
  4. 以此类推……

每个 MTP 模块是一个轻量级的 Transformer 层,与主模型共享 embedding 层和输出头。

# MTP 模块结构(简化) # 主模型输出 h_main = main_model(input_tokens) # 主模型隐状态 pred_1 = output_head(h_main) # 预测 token t+1 # MTP 模块 k:预测 token t+k+1 combined = concat(h_prev, embed(token_t_k)) # 融合上层输出和当前embedding h_k = mtp_transformer_k(combined) # 轻量Transformer层 pred_k_1 = shared_output_head(h_k) # 共享输出头预测下一个

为什么是顺序预测而非独立预测?因为自然语言中相邻token高度相关。顺序预测允许第k个预测利用前k-1个预测的信息,比完全独立的并行预测更准确。

推测解码:MTP 如何加速推理?

推测解码(Speculative Decoding)的基本思想:

  1. 草稿阶段 — MTP 模块快速"猜测"接下来的 k 个 token(成本很低,因为 MTP 模块很小)
  2. 验证阶段 — 主模型一次性验证这 k 个猜测是否正确
  3. 接受/拒绝 — 如果前 n 个猜测都正确,直接接受;从第一个错误的位置开始重新生成

加速原理:验证 k 个 token 的成本 ≈ 生成 1 个 token 的成本(都是一次前向传播),但如果大部分猜测正确,就相当于"一步走了k步"。

DeepSeek-V3 的 MTP 模块预测接受率约 85-90%,这意味着推理速度提升约 1.8x(TPS 从基础的 ~50 提升到 ~90)。

MTP 对训练质量的影响

MTP 在训练阶段的主要价值不是加速,而是提升模型的表征质量

  • 信号密度 — 每个位置从1个训练信号变成多个,模型从同样的数据中学到更多
  • 前瞻规划 — 要预测未来多个token,模型被迫学习更长距离的依赖关系
  • 表征优化 — 中间层的隐状态需要同时包含对多步未来的预测能力,促使模型学习更丰富的表征

消融实验显示,加入 MTP 后,模型在需要"深度规划"的任务(如数学推理、代码生成)上提升尤为明显。这符合直觉——这些任务正是需要"提前想好几步"的场景。

Chapter 06

FP8 混合精度训练

数字精度是训练大模型的隐形成本。DeepSeek-V3 是首个在如此大规模上成功使用 FP8 训练的模型,直接将训练效率提升了约40%。

数值精度光谱

FP32

32位 · 传统训练

基线精度

BF16

16位 · 主流方案

2x 加速

FP8

8位 · DeepSeek-V3

~4x 加速

INT4

4位 · 推理优化

目前主要用于推理

为什么 FP8 训练这么难?

FP8 只有 8 位,其中指数部分 4-5 位、尾数部分 2-3 位。这意味着它只能表示约 256 个不同的数值,而 BF16 可以表示 65,536 个。精度的大幅下降会导致梯度计算失真、数值溢出/下溢、训练不稳定。DeepSeek-V3 通过精细的量化策略解决了这些问题。

细粒度量化策略详解

DeepSeek-V3 不是简单地将所有计算换成 FP8,而是采用了分层分组的精细策略:

1. 哪些用 FP8:

  • GEMM(矩阵乘法)运算的核心计算——这是计算量最大的部分
  • 前向传播中的线性变换
  • 反向传播中的梯度矩阵乘法

2. 哪些保持高精度:

  • 累加器 — GEMM 的中间累加用 FP32,避免误差积累
  • 注意力计算 — softmax 和注意力分数用 BF16/FP32
  • 归一化层 — LayerNorm / RMSNorm 用 FP32
  • 路由器 — 专家选择的门控计算用 FP32(均衡对精度敏感)
  • 优化器状态 — Adam 的一阶矩和二阶矩用 FP32

3. 分组量化(Per-Group Scaling):

  • 不是对整个张量用一个缩放因子,而是将张量分成小块(如 128 个元素一组)
  • 每组独立计算缩放因子,确保局部精度
  • 类似于图像压缩中的分块 JPEG 而不是全图压缩
训练稳定性验证

DeepSeek 团队通过严格的实验验证了 FP8 训练的等价性:

指标BF16 基线FP8 混合精度差异
训练损失曲线基线几乎完全重叠< 0.25% 偏差
Benchmark 性能基线统计上无差异在噪声范围内
训练吞吐量基线~1.4x 提升约40%加速
显存占用基线~0.75x约25%节省

无损失质量下降 + 40%效率提升——这是 FP8 训练在 671B 规模模型上的首次成功验证,对整个行业都有重大参考价值。

FP8 的行业意义

DeepSeek-V3 的 FP8 训练成功对行业有三层影响:

  • 直接降本 — 同等算力下训练速度提升 40%,等效于 GPU 成本降低 ~30%
  • 硬件红利释放 — H100/H800 的 FP8 Tensor Core 终于有了成熟的训练方案(此前主要用于推理)
  • 后续芯片设计 — 验证了低精度训练的可行性,未来 AI 芯片可以更激进地投资低精度计算单元
PART III

训练与评测

从14.8T tokens数据到最终评测,完整训练流水线解析

Chapter 07

训练流程全解析

从原始数据到可用的大模型,DeepSeek-V3 的训练流水线包含四个精心设计的阶段,每个阶段都有独特的设计考量。

Pre-training Long Context Extension SFT RL (GRPO)

阶段一:预训练(Pre-training)

第一阶段:14.8T tokens

在海量多样化文本上训练,建立基础语言能力。上下文窗口 4K。数据配比经过精心调优:英文、中文、代码、数学、多语言等。

第二阶段:额外高质量数据

在预训练末期增加高质量数据(数学、代码、推理数据)的比例,同时将上下文窗口逐步扩展到 128K。类似"精读"阶段。

预训练数据工程细节

数据处理流程:

  • Document-level packing — 多个文档拼接为一个训练序列,减少 padding 浪费
  • FIM (Fill-In-the-Middle) — 部分数据用"完形填空"格式训练,增强代码补全能力
  • 数据去重 — 多级去重(URL去重、MinHash去重、精确去重)
  • 质量过滤 — 基于规则 + 基于模型的质量评分

Tokenizer:基于 Byte-level BPE,词表大小 128K。中英文 tokenizer 效率均优于 Llama 系列。

阶段二:监督微调(SFT)

使用约 150 万条高质量指令数据对模型进行微调,让模型从"预测下一个token"进化为"理解人类意图并有条理地回答"。

知识蒸馏的妙用

DeepSeek-V3 的 SFT 数据中包含大量来自 DeepSeek-R1(推理模型)的蒸馏数据。R1 擅长长链推理,通过蒸馏,V3 获得了 R1 的部分推理能力,同时保持了通用对话的流畅性。这是一种"跨模型知识迁移"的聪明策略。

SFT 数据构成
数据类型来源作用
数学推理R1 蒸馏 + 人工标注增强逻辑推理和数学解题能力
代码R1 蒸馏 + 代码评测提升编程和调试能力
写作创意人工标注保持文本流畅度和创造力
知识问答检索增强 + 人工验证确保事实准确性
多轮对话人工构造 + 模型自我对弈上下文跟踪和指令遵循

阶段三:强化学习(GRPO)

SFT 让模型"能回答",强化学习让模型"回答得更好"。DeepSeek-V3 使用 GRPO(Group Relative Policy Optimization)替代传统的 PPO。

GRPO vs PPO:为什么不用 PPO?

PPO 的问题:

  • 需要训练一个单独的 Reward Model(额外的 GPU 资源)
  • Reward Model 容易被"游戏化"(reward hacking)
  • 训练不稳定,需要大量超参调优

GRPO 的创新:

  • 无需 Reward Model — 对同一个问题生成一组回答(group),互相比较打分
  • 相对评估 — 不是给每个回答绝对分数,而是看"谁比谁好"
  • 节省资源 — 去掉了 Critic 模型(PPO 中约占 50% 算力)

奖励信号来源:

  • 规则奖励 — 数学题可以验算答案对错、代码可以跑测试用例
  • 模型奖励 — 主观题用偏好模型打分
训练基础设施与工程

硬件:

  • 2048 张 NVIDIA H800 GPU
  • 集群内 NVLink + NVSwitch 通信
  • 集群间 InfiniBand 互联

并行策略:

  • Pipeline Parallelism — 模型的不同层分布在不同 GPU 上
  • Expert Parallelism — MoE 的不同专家分布在不同节点
  • Data Parallelism — 同一batch数据分布在不同副本
  • 自研 DualPipe 算法优化流水线并行的通信-计算重叠

训练总耗时:约 2.788M H800 GPU 小时。按 H800 的云端价格(~$2/h)估算,总成本约 $5.576M。

Chapter 08

性能评测与行业影响

数字说话:DeepSeek-V3 在多个核心 benchmark 上达到了与 GPT-4o 和 Claude 3.5 Sonnet 相当甚至更好的水平,而且是完全开源的。

核心 Benchmark 对比

BenchmarkDeepSeek-V3GPT-4oClaude 3.5 SonnetLlama 3.1 405B
MMLU (知识)88.587.288.384.4
MMLU-Pro75.972.678.061.6
MATH-50090.274.678.373.8
AIME 2024 (竞赛数学)39.29.316.023.3
HumanEval (代码)82.690.288.461.0
LiveCodeBench40.533.436.328.4
Codeforces (竞赛编程)51.623.620.321.0
GPQA (科学推理)59.153.659.451.1

关键发现

DeepSeek-V3 在数学和竞赛编程上显著领先所有闭源模型,在通用知识和科学推理上持平或接近,在标准代码生成(HumanEval)上略低于 GPT-4o。整体而言,这是首个在综合能力上真正比肩前沿闭源模型的开源模型。

强势领域分析

functions

数学推理

MATH-500 得分 90.2,AIME 2024 得分 39.2,大幅领先。得益于 R1 蒸馏带来的链式推理能力。

code

竞赛编程

Codeforces 评分 51.6(约 1997 Elo),远超 GPT-4o 的 23.6。在需要算法设计的复杂编程任务上表现突出。

translate

中文能力

在中文 benchmark(C-Eval、CLUEWSC 等)上领先所有对手,中英文能力均衡发展。

成本效率:不只是"便宜"
维度DeepSeek-V3典型闭源模型差距
训练成本~$5.5M$100M+~20x 更便宜
推理成本(API)$0.27/M input tokens$5-15/M input tokens~20-50x 更便宜
激活参数37B未知(推测 200B+)推理更高效
开源完全开源闭源可私有化部署

DeepSeek-V3 的 API 定价是业界最低之一:输入 $0.27/M tokens,输出 $1.10/M tokens。这不仅仅是"便宜",而是重新定义了顶级大模型的成本结构。

对开源 AI 生态的影响

1. 打破"开源=二流"的认知

在 DeepSeek-V3 之前,开源模型(即使是 Llama 3.1 405B)与前沿闭源模型之间仍有明显差距。V3 证明了在正确的架构创新下,开源可以追平闭源。

2. 技术外溢效应

  • MLA、无辅助损失负载均衡、FP8 训练等技术方案已开始被其他团队采用
  • 完整的技术报告提供了详尽的实现细节,降低了复现门槛

3. 产业格局影响

  • API 定价竞争加剧,闭源模型的定价压力增大
  • 私有化部署变得更有吸引力(同等性能,完全可控)
  • 中小企业和研究机构获得了前所未有的模型能力获取途径
局限性与未来方向

当前局限:

  • 部署门槛 — 671B 参数模型仍需要多卡部署(即使只激活37B),对硬件有一定要求
  • 标准代码生成 — 在 HumanEval 等标准 benchmark 上略低于 GPT-4o
  • 多模态 — V3 是纯文本模型,不支持图像/音频理解
  • 长文档处理 — 128K 上下文已够用,但随着 context 增长 MLA 的优势更明显

未来方向:

  • 多模态扩展(DeepSeek 已有 VL 系列)
  • 更激进的 MoE 稀疏化(进一步降低推理成本)
  • 与 R1 推理能力的更深度融合
  • 端侧部署的量化优化

结语

DeepSeek-V3 不只是一个模型,它是一个信号——顶级AI不再是少数巨头的专利。通过 MoE、MLA、无损负载均衡、MTP、FP8 训练五大创新的协同作用,它用 $5.5M 实现了曾经需要 $100M+ 才能达到的性能水平。对于整个AI行业,这既是技术突破,也是范式转变。