当前位置: 首页 > news >正文

deepseek 适配了 华为升腾 是不是 用了类似Megatron-LM deepSpeed框架的??

  1. DeepSeek 自己有一个自研训练框架 HAI‑LLM,确实类似 Megatron/DeepSpeed 那种“大模型专用训练框架”;
  2. 适配华为昇腾时,主要用的是昇腾那套 MindSpeed‑LLM + Megatron‑LM + CANN,而不是把 HAI‑LLM 整个搬过去。
    下面分开说清楚。
    内容由ai生成

1. DeepSeek 自己确实有类似 Megatron 的训练框架:HAI‑LLM

公开资料里写得很明白:DeepSeek LLM / V2 / V3 等模型,用的都是自研框架HAI‑LLM(Highly Adaptive & Integrated LLM Training),这个框架做的事情跟 Megatron / DeepSpeed 很像:

  • 支持DP / TP / PP / 序列并行 / 1F1B 流水线等多种并行
  • ZeRO‑1 / ZeRO‑3做优化器状态/参数分片
  • 计算/通信重叠、算子融合、Flash Attention等优化
  • V3 还在 MoE 上搞了DualPipe 等专用调度算法
    从功能定位上看,HAI‑LLM 就是:

“DeepSeek 版的 Megatron + DeepSpeed 混合体”,只用在自家模型训练上,目前没整体开源。


2. 那适配华为昇腾,是不是把 HAI‑LLM 整个搬过去了?

不是。

2.1 昇腾那边已有的“类似框架”栈

华为在昇腾上有一套比较完整的大模型训练/推理栈,里面就包含类似 Megatron 的东西:

  • CANN:类似 CUDA 的底层计算架构
  • MindSpeed:昇腾的大模型加速库,并行优化、算子融合、通信优化等
  • MindSpeed‑LLM:基于 Megatron‑LM 核心架构 + MindSpeed 适配层,做 LLM 训练套件
  • MindIE:大模型推理引擎(含 vLLM‑Ascend 等)
    其中MindSpeed‑LLM的典型结构是:
  • 上层:Megatron‑LM 的 TP/PP/DP 训练逻辑
  • 中层:MindSpeed 做“猴子补丁式”的昇腾适配和优化
  • 底层:CANN + torch_npu + HCCL 通信
    也就是说,昇腾已经有一套“Megatron‑LM + MindSpeed” 的组合,本质上就相当于“昇腾版 Megatron 框架”。

2.2 DeepSeek 适配昇腾,用的是哪套?

从华为官方和社区文档看,DeepSeek 在昇腾上训练/推理,走的就是 MindSpeed‑LLM + Megatron‑LM 这条路

  • 华为 ModelArts 的预置镜像里,专门有MindSpeed‑LLM 镜像,说明里写明:

    深度融合 MindSpeed 加速库与 Megatron‑LM 核心架构,为合作伙伴提供端到端大模型训练方案。

  • 有文章直接给出在昇腾上用MindSpeed‑LLM + Megatron‑LM 跑 DeepSeek‑V4‑Flash的完整步骤:
    1. 安装 CANN / torch_npu / MindSpeed
    2. 克隆 Megatron‑LM(core_v0.12.1)
    3. 用 MindSpeed‑LLM 的脚本做 DeepSeek‑V4‑Flash 的权重转换、训练、推理
  • 昇腾社区还有专门的DeepSeek 模型专区,把 DeepSeek‑V3/V4/R1 等模型做成 OM/MindIR 权重 + MindIE/vLLM‑Ascend 推理方案。
    这些说明:
  • 训练侧:DeepSeek 在昇腾上用的是MindSpeed‑LLM(Megatron‑LM 核心)+ HAI‑LLM 里积累的并行/通信策略,而不是把 HAI‑LLM 整个框架替换掉;
  • 推理侧:用的是MindIE / vLLM‑Ascend,也不是 HAI‑LLM 自己的推理引擎。

3. 所以,“适配昇腾”具体做了什么?

可以粗略分成三层:

  1. 底层算子/运行时迁移
    • 从 CUDA 迁移到 CANN,重写了 200+ 核心算子;
    • 用 torch_npu 把 PyTorch 接口桥接到昇腾 NPU。
  2. 框架层:把 HAI‑LLM 的“经验”搬到 MindSpeed‑LLM 上
    • 把 HAI‑LLM 里验证过的并行策略(PP/EP/DP/ZeRO 等)和通信/调度优化,在 MindSpeed‑LLM + Megatron‑LM 上重新实现和调优;
    • 利用 MindSpeed 的图算融合、HCCL 通信优化、激活重计算等昇腾专属优化。
  3. 模型/权重适配
    • 把 DeepSeek‑V3/V4 等模型权重转换为昇腾友好的格式(BF16/FP8、OM/MindIR 等),并配合 MindIE/vLLM‑Ascend 做推理优化。

4. 一句话总结

  • :DeepSeek 确实有自研的类似 Megatron/DeepSpeed 的训练框架 HAI‑LLM,支撑自家大模型训练。
  • :适配华为昇腾时,并不是“把 HAI‑LLM 整个搬到昇腾”,而是:
    • 底层用 CANN / torch_npu 替换 CUDA;
    • 框架层用昇腾已有的MindSpeed‑LLM + Megatron‑LM组合,把 HAI‑LLM 的并行/调度策略迁移过去;
    • 推理层用 MindIE / vLLM‑Ascend,而不是 HAI‑LLM 自带的推理引擎。
      所以更准确的说法是:

DeepSeek 适配昇腾,是在昇腾已有的“MindSpeed‑LLM + Megatron‑LM + CANN”框架栈上,把自家 HAI‑LLM 的经验和模型特性搬过去,而不是从零另起一个类似框架。

TileLang(俗称铁狼)

国产GPU/NPU算子专用编程语言,北大杨智团队研发,DeepSeek-V3.2主力底层算子开发语言,对标CUDA、替代Triton

一、基础信息

  • 研发方:北京大学计算机杨智副教授团队(TileAI社区),2025年1月GitHub开源,开源项目tile-ai/tilelang
  • 定位AI高性能算子DSL领域专用语言,专门写GPU/昇腾/寒武纪/AMD NPU底层内核(GEMM、FlashAttention、量化算子等大模型核心算子)。
  • 关键落地:DeepSeek V3.2全链路改用TileLang编写算子,替换OpenAI主导的Triton;华为昇腾Day0首日原生适配、算能TPU、AMD全平台同步兼容。

二、核心特点

1. 语法:类Python,上手简单

Python风格简洁语法,不用手写CUDA繁杂线程、内存调度;
FlashAttention:原生CUDA≈500行 → TileLang仅70~80行,代码缩减80%+

# 极简示例风格@tilelang.jitdefgemm(A:T.Tensor,B:T.Tensor,C:T.Tensor):# Tile分块计算,编译器自动调度硬件

2. 跨芯片一次编写、多硬件编译

一套代码可编译:

  • NVIDIA CUDA(A100/H100)
  • 华为昇腾AscendC
  • AMD ROCm、寒武纪、壁仞国产NPU
    底层基于TVM编译器架构,数据流与硬件调度解耦,编译器自动做硬件优化。

3. 性能对标CUDA,优于Triton

  • H100实测:同等算子普遍优于Triton,部分算子提速2~5倍,性能持平原生CUDA手写
  • 自动Tile分块、软件流水线、内存排布优化,兼顾开发效率与硬件极限性能。

三、DeepSeek为什么选用TileLang

  1. 降本提速:自研算子开发周期大幅缩短,大模型训练/推理延迟下降、API算力成本降低;
  2. 国产算力适配刚需:DeepSeek落地国产昇腾等芯片,TileLang统一屏蔽各硬件编程差异;
  3. 摆脱Triton生态依赖:Triton绑定CUDA生态,TileLang自主可控、全国产算力友好。

四、安装与使用

# pip安装pipinstalltilelang# PyTorch/Paddle生态均有适配包pipinstalltilelang-paddle

接入PyTorch/Paddle即可自定义高性能算子,无缝替换原生CUDA/Triton算子。

五、对标三强对比

语言开发主体生态跨硬件适用场景
CUDA英伟达N卡独占N卡极致性能、开发成本极高
TritonOpenAI/NVIDIA优先N卡一般主流AI快速算子、国产芯片适配差
TileLang北大TileAI全芯片兼容极强国产N+N卡通用、大模型算子首选

内容由ai生成

http://www.rkmt.cn/news/1475242.html

相关文章:

  • 智能进化算法:借助快马平台AI模型优化杜鹃算法的莱维飞行与参数策略
  • 工程师思维:冗余|冗余越多,容错能力越强
  • 2026合肥黄金回收权威常识,龙头品牌测评,高效变现攻略 - 奢侈品回收评测
  • 别再只盯着SENet了!用PyTorch手把手实现STN,让你的CNN模型学会‘自动对焦’
  • 2026年动态人机工学椅主流生产企业发展现状分析(附核心数据) - 多才菠萝
  • 2026年AI模型接入深度复盘:六大聚合平台实测,谁才是生产环境的最优解?
  • 2026古法黄金出手指南!沈阳高分回收龙头透明高价收的顶夺魁 - 奢侈品回收评测
  • 为什么92%的CSDN AI营销新人第一周就踩坑?揭秘内容营销与信息流广告的3层组织墙、2套数据底座、1个不可逆分账逻辑
  • 基于DS18B20与AT89S51的高精度数字温度计设计与实现
  • 终极GNOME Shell扩展管理工具:一站式轻松定制你的Linux桌面
  • RC复位电路不可靠?专业复位芯片设计原理与实战指南
  • 2026年隧道装饰板厂家:无机隧道防火板、硅酸钙隧道防火板、高速隧道盖板、隧道防火隔板、隧道用钢钙板源头厂家实力之选 - 品牌企业推荐师(官方)
  • 别再盲目续费!CSDN AI数字营销的“软性上限”已启动:3类高频触发场景+2种扩容优先级通道
  • 告别仿真!手把手教你用ADC0809和51单片机搭建一个真实的八通道电压采集器(附完整代码和PCB)
  • 2026年 开炼机生产厂家:自动/手动/电热/精密/水冷/冷热型开炼机源头工厂深度解析 - 品牌企业推荐师(官方)
  • Awoo Installer:轻松搞定Switch游戏安装的终极方案
  • 超详细-从0配置Claude Code[Windows 10 / 11版]
  • 英雄联盟R3nzSkin国服版:5分钟免费解锁全皮肤的终极指南
  • 2026 济南黄金典当对比专业回收,五家门店深度测评,变现收益排名出炉 - 奢侈品回收评测
  • 技术方案:Windows平台DualShock 3控制器虚拟HID驱动架构解析
  • GetQzonehistory终极指南:完整备份QQ空间历史说说的智能解决方案
  • Translumo:3步掌握开源实时屏幕翻译的终极指南
  • 2026年石家庄六西格玛绿带黑带资料怎么领取?课程入口说明 - 众智商学院官方
  • 金华市有哪些官方授权的CPPM注册职业采购经理培训机构? - 众智商学院课程中心
  • 效率飙升:用快马ai将数学问题直接转为matlab代码并实时得出结果
  • 2026 北京西城区、丰台区黄金回收|合扬实力领跑,全品类黄金都收 - 奢侈品交易观察员
  • 免费一键激活:5分钟永久解决Windows和Office激活难题的终极方案
  • 机器学习生产系统:从模型部署到高可用运维的工程实践
  • Python-O365实战:高效集成Microsoft 365 API的完全指南
  • 3分钟快速上手Frigate:免费开源AI安防监控终极指南