博客
赋能 AI 大模型训练推理助力 DeepSeek 落地-LTHPC G6228 G3

|
|
|
|
DeepSeek-v3 |
671B |
MoE 架构,总参数量 671B,激活参数量 37B, 模型在 14.8T Token 上进行了预训练,在长文本、代码、数学、百科、中文能力上表现优秀。 |
适用于语言理解和文本生成的任务场景 |
DeepSeek-R1 |
671B |
基于 V3 模型在后训练阶段大规模使用强化学习技术,在仅有极少标注数据的情况下,具备长思维链(CoT)能力,极大提升了模型推理能力。 |
适用于高效推理的场景,尤其在数学、代码、自然语言推理等任务 |
DeepSeek-R1 蒸馏模型 |
1.5B-70B |
基于知识蒸馏技术,通过使用R1 模型生成的样本数据对 Qwen、Llama 模型进行微调,实现将 R1 的推理能力蒸馏到更小的稠密模型中。 |
适用于有限算力场景 |
-
模型参数显存(模型权重占用)=激活参数量 x 精度(字节数)/10^9
-
KV Cache(非 MoE 层) =[ 2(表示 Key 和 Value 两个矩阵) x BatchSize x Sequence Length x Hidden Size x 精度(字节数)x 层数 ]/10^9
-
KV Cache(MoE 层)=[ 2xBatch SizexSequence Lengthx 激活专家数星x压缩维度x精度(字节数)x层数 ]/10^9
-
激活值(Activation)(非 MoE 层)与中间计算存储占用显存=Batch SizexSequence LengthxHiddenSizex 层数x精度(字节数)/10^9
-
激活值(Activation)(MoE 层)与中间计算存储占用显存=Batch SizexSequence Lengthx激活专家数量x压缩维度x层数x精度(字节数)/10^9
-
模型参数量:671B -
激活参数量:37B -
模型精度:FP8 -
MoE 层数:58 -
非 MoE 层数:3 -
Hidden Size(隐藏层维度):7168 -
压缩维度:512 -
激活专家数量:8 -
进行模型推理的参数如下: -
并发数(同一时间使用模型的数量):30 -
Batch Size:8 -
序列长度(Sequence Length):2048
DeepSeek AI 核心算力单元
-
2 x Intel® Xeon® Platinum 8480+ Processor,56C/112T,2.00 GHz;
-
2TB DDR5 4800MHz RECC 企业级内存;
-
2 x 960GB 企业级 SATA SSD,8 x 3.84TB 企业级 NVME SSD;

相关贴子
-
人工智能与大模型
最大化人工智能效率:并行化和分布式训练
2025.01.27 23分钟阅读 -
人工智能与大模型
高计算密度,规模数据新势力——GK4428
2023.01.18 14分钟阅读 -
人工智能与大模型
如何提高 RAG 模型的性能
2024.10.25 36分钟阅读