博客

人工智能与大模型

赋能 AI 大模型训练推理助力 DeepSeek 落地-LTHPC G6228 G3

2025.02.26 34分钟阅读

  01
DeepSeek 模型简述
DeepSeek 模型是由深度求索(DeepSeek)公司开发的大型语言模型,它基于海量数据进行训练,拥有强大的自然语言理解和生成能力。近期 DeepSeek 发布并开源了 V3 和 R1 模型,在多个标准基准测试中展现出了出色的性能,其表现甚至超过了业界主流的闭源模型,引发了全球科技行业的广泛关注。
图片
因 DeepSeek 大模型体现的卓越性能、低成本高效推理及开源策略的特点,具备了技术的普惠性,用户可以直接基于 DeepSeek 模型快速构建大模型智能化应用。同时 DeepSeekV3 和 R1 模型采用宽松的 MIT 协议开源,无需申请即能免费使用,明确允许利用模型输出、通过模型蒸馏等方式训练其他模型,具体的模型版本及参数信息如下:
模型版本
参数量
说明
适用场景

DeepSeek-v3

671B

MoE 架构,总参数量 671B,激活参数量 37B,

模型在 14.8T Token 上进行了预训练,在长文本、代码、数学、百科、中文能力上表现优秀。

适用于语言理解和文本生成的任务场景

DeepSeek-R1

671B

基于 V3 模型在后训练阶段大规模使用强化学习技术,在仅有极少标注数据的情况下,具备长思维链(CoT)能力,极大提升了模型推理能力。

适用于高效推理的场景,尤其在数学、代码、自然语言推理等任务

DeepSeek-R1  蒸馏模型

1.5B-70B

基于知识蒸馏技术,通过使用R1 模型生成的样本数据对 Qwen、Llama 模型进行微调,实现将 R1 的推理能力蒸馏到更小的稠密模型中。

适用于有限算力场景

低成本+高精度使得 DeepSeek 成为国产模型之星,V3 的突破主要在架构创新和工程创新,R1 开辟了推理模型训练的新路径,DeepSeek 的出现将会促进 AI 全行业的更加快速且低成本的迭代。
  02
DeepSeek 算力集群部署测算
预搭建 DeepSeek 模型算力集群,仅对 DeepSeek 的参数量有一定的认知还远远还不够,还需深度了解 DeepSeek 模型的“激活参数量”、“模型精度”“MoE 层数与非 MoE 层数”、“Hidden Size(隐藏层维度)”、“压缩维度”、“激活专家数量”等模型信息,针对自身需求的“并发数”、“Batch Size”、“序列长度”等设置信息测算其总计 GPU 显存需求量。其总需显存容量包含“模型权重占用”、“KV Cache 占用”、“激活值(Activation)与中间计算存储占用”之和。具体计算方法如下(仅供参考):
  • 模型参数显存(模型权重占用)=激活参数量 x 精度(字节数)/10^9

  • KV Cache(非 MoE 层) =[ 2(表示 Key 和 Value 两个矩阵) x BatchSize x Sequence Length x Hidden Size x 精度(字节数)x 层数 ]/10^9

  • KV Cache(MoE 层)=[ 2xBatch SizexSequence Lengthx 激活专家数星x压缩维度x精度(字节数)x层数 ]/10^9

  • 激活值(Activation)(非 MoE 层)与中间计算存储占用显存=Batch SizexSequence LengthxHiddenSizex 层数x精度(字节数)/10^9

  • 激活值(Activation)(MoE 层)与中间计算存储占用显存=Batch SizexSequence Lengthx激活专家数量x压缩维度x层数x精度(字节数)/10^9

     

并发汇总显存=模型权重占用+[ KV Cache占用(非 MoE)+激活值与中间计算存储(非 MoE)+ KV Cache占用(MoE)+激活值与中间计算存储(MoE)] x 并发数
测算示例:
预部署 DeepSeek-V3 模型进行推理应用,已知模型信息如下:
  • 模型参数量:671B
  • 激活参数量:37B
  • 模型精度:FP8
  • MoE 层数:58
  • 非 MoE 层数:3
  • Hidden Size(隐藏层维度):7168
  • 压缩维度:512
  • 激活专家数量:8
  • 进行模型推理的参数如下:
  • 并发数(同一时间使用模型的数量):30
  • Batch Size:8
  • 序列长度(Sequence Length):2048
结论:结合上述计算方法进行计算,测得总显存需求为:[模型参数量(激活参数量 x 精度(字节数)/10^9)+并发用户汇总显存需求]=1090.02GB
  03
LTHPC 6228 G3 服务器

DeepSeek AI 核心算力单元

针对上述测算示例,在确定了并发数、BatchSize、序列长度等信息的前提下,可大致估算出运行 DeepSeek-v3 版本的模型推理需要约“1100GB”左右的显存。采用 LTHPC G6228 G3 服务器,内置 8 块 NVIDIA Tesla H20 SXM5 GPU 计算卡,总计显存 1128GB(单卡 141GB 显存),采用 NVLINK 协议,卡间 P2P 带宽可达 900GB/s,可以完全满足 DeepSeek-v3 所需显存需求;
LTHPC G6228 G3 服务器作为联泰集群构建智算中心的核心产品之一,在 DeepSeek 模型广为熟知后,已实现对 DeepSeek 全系列模型的适配接入,帮助客户快速构建基于 DeepSeek 的专属智能应用。LTHPC G6228 G3 的核心参数如下:
  • 2 x Intel® Xeon® Platinum 8480+ Processor,56C/112T,2.00 GHz;

  • 2TB DDR5 4800MHz RECC 企业级内存;

  • 2 x 960GB 企业级 SATA SSD,8 x 3.84TB 企业级 NVME SSD;

     

8 x NVIDIA Tesla H20 SXM5 141GB 显存,卡间支持高达 900GB/s P2P 互联带宽,共计提供 2.3Pflops 的 AI 算力;
图片
(LTHPC G6228 G3)
LTHPC G6228 G3 服务器所提供的卓越性能,可预置并完美运行 DeepSeek 全系列大模型框架,为用户提供快速交付、开箱即用、极致性能、安全高效的全栈大模型微调和推理的开发能力,加快 DeepSeek 等大模型在各行业的应用落地速度。

相关贴子

敬请登记。

登记
本网站受 reCAPTCHA 保护,适用 Google隐私政策和服务条款。