当前位置: 首页 > news >正文

海光 特有的Python 包 下载地址 必须有 DCU 专用版(底层含 CUDA/ROCm 二进制)

LLaMA-Factory + 大模型训练/推理最相关的 DCU 特殊包,我按优先级给你筛出来:
https://download.sourcefind.cn:65024/directlink/4/

🔴 第一梯队:必须有 DCU 专用版(底层含 CUDA/ROCm 二进制)

作用不装 DCU 版的后果
pytorch/已装 ✅torch 核心,已搞定
triton/已装/待装 ✅GPU 编译器,FlashAttention 和 torch.compile 的根基
deepspeed/多卡分布式训练装官方版 = NVIDIA CUDA 内核,DCU 直接段错误
flash_attn/Flash Attention 加速官方版只有 CUDA 核函数,DCU 上 import 就崩
bitsandbytes/QLoRA 4bit/8bit 量化官方版libbitsandbytes_cuda*.so是纯 CUDA 二进制,DCU 无法加载
xformers/内存高效的注意力/优化器底层 CUDA kernel,DCU 需要重编译版

🟡 第二梯队:强烈建议找 DCU 版(性能相关)

作用说明
torchvision/图像预处理、模型已随 torch 一起用,需要dtk2404对应版本
torchaudio/音频处理同上,版本要匹配 torch 2.1.0
apex/混合精度、梯度缩放NVIDIA 的优化库,DCU 有移植版
transformer_engine/FP8 训练(H100/DCU 新一代)如果做 FP8 量化训练需要

🟢 第三梯队:纯 Python / 通用 C++,PyPI 官方版可用

这些不需要去 sourcefind.cn 下,直接pip install即可:

为什么不需要 DCU 版
transformers,datasets,accelerate,peft纯 Python 上层封装
sentencepiece,protobuf,tiktoken文本 tokenizer,C++ 但无 GPU 代码
gradio,fastapi,uvicornWeb UI / API,纯 Python
numpy,scipy,pandas,matplotlib科学计算,CPU 版即可
diffusers/HuggingFace 扩散模型,纯 Python(底层调 torch)
colossalai/虽然含底层,但主要逻辑在 Python,可试 PyPI 版
vllm/,sglang/,lmdeploy/推理框架,注意:这几个底层重度依赖 CUDA/ROCm,如果 PyPI 版不支持 DCU,必须从 sourcefind.cn 下

⚠️ 特别注意:推理框架(vLLM / SGLang / LMDeploy)

vllm/sglang/lmdeploy/这三个是大模型推理服务的核心:

  • PyPI 官方版 vLLM:目前只支持 NVIDIA CUDA,对 ROCm/DCU 支持很弱或没有
  • 海光 sourcefind.cn 的版本:应该是基于 ROCm 移植的 DCU 可用版

如果你后续要部署推理服务(不是训练),这三个必须从sourcefind.cn下载 DCU 版。


📋 LLaMA-Factory 最小依赖清单(DCU 版)

按这个顺序去sourcefind.cn下载manylinux2014后缀的:

# 1. torchvision(匹配 torch 2.1.0)wgethttps://download.sourcefind.cn:65024/directlink/4/pytorch/DAS1.1.1/torchvision-0.16.0+xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl# 2. torchaudio(可选,LLaMA-Factory 主要用不上)# wget .../torchaudio/...# 3. deepspeed(多卡必需)wgethttps://download.sourcefind.cn:65024/directlink/4/deepspeed/deepspeed-xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl# 4. flash_attn(训练加速强烈推荐)wgethttps://download.sourcefind.cn:65024/directlink/4/flash_attn/flash_attn-xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl# 5. bitsandbytes(QLoRA 量化必需)wgethttps://download.sourcefind.cn:65024/directlink/4/bitsandbytes/bitsandbytes-xxx.dtk2404-cp310-cp310-manylinux2014_x86_64.whl

一句话策略

凡是有.so/ CUDA kernel / GPU 二进制 的包,必须从 sourcefind.cn 下 DCU 版;纯 Python 的上层库,直接 pip 装官方版。

你现在最需要补的是:torchvision(配套 torch 2.1.0)、deepspeedflash_attnbitsandbytes这四个。先去这几个目录里翻manylinux2014的包,找到后按之前的规则重命名(第二个+.-.)再安装。

http://www.rkmt.cn/news/1438392.html

相关文章:

  • AI时代软件工程师的进化:从编码执行者到系统策展人
  • 神经形态计算与脉冲编码技术解析
  • 大数据分析实战指南:从核心概念到企业落地全流程解析
  • 别再乱写documentclass了!IEEEtran类选项全解析,从会议到期刊一篇搞定
  • Unity里播放WebRTC直播流?试试这个WebView插件,5分钟搞定(附完整C#读写HTML代码)
  • RT-Thread实战:信号量、互斥量、事件集,到底该用哪个?一个真实项目案例帮你选型
  • 【字节跳动】自动追溯每一位用户所有登录设备、登录地点、登录时间、切换账号记录,全域统一采集
  • 从旋转矩阵到游戏开发:伴随矩阵求逆在Unity中的一次实战应用
  • Orange Pi 5 Plus接口配置避坑指南:为什么你的UART/I2C/SPI/PWM/CAN启用后没反应?
  • PHP依赖注入与服务容器深度剖析
  • Flink 1.17 监控实战:5分钟搞定JMX和Slf4j日志双指标上报
  • 别再让SSD‘偏科’了!聊聊主控芯片里的‘雨露均沾’算法:动态与静态磨损均衡到底怎么选?
  • 手把手教你为旧版Linux系统(如Xubuntu 16.04)打RT补丁并编译内核
  • 别再只盯着Stegsolve了!聊聊CTF图片隐写中那些‘非主流’工具:从foremost分离到outguess解密实战
  • 告别Putty:用Windows Terminal或VSCode远程SSH连接树莓派,体验更现代的终端操作
  • 用AVR单片机解码DALI信号:一个定时器+GPIO中断的实战拆解(附Microchip参考代码)
  • FreeRTOS任务栈分配踩坑记:为什么我的LVGL任务跑着跑着就卡住了?
  • 避开Gazebo仿真坑:手把手教你配置Livox非重复扫描雷达的URDF模型
  • 抖音素材收集革命:5分钟搞定无水印批量下载,自媒体人必备神器!
  • Spring Boot项目引入自家SDK JAR包踩坑记:从恼人的打包警告到优雅的依赖管理方案
  • PHP依赖注入容器原理与实现
  • AI如何重塑蓝领工作:从自动化到人机协作的转型路径
  • 别再死记硬背74LS138真值表了!用这个实验箱实战一次,彻底搞懂3-8译码器
  • SwanLab离线版远程访问全攻略:从单机到团队协作,安全共享你的实验看板
  • 别再为IP核仿真头疼了!手把手教你用Vivado 2018.3给ModelSim 22.04编译专属仿真库
  • 混沌系统随机性好不好?手把手教你用NIST测试包和Matlab出报告
  • 别再死记硬背了!通过一个校园网项目,彻底搞懂VLAN、VRRP和OSPF是怎么协同工作的
  • 别再只盯着CTR了!硬件工程师必看:光耦选型时这5个参数才是关键(附避坑指南)
  • SQL开发者如何通过特征工程与数据库内机器学习实现技能升级
  • 量子计算与无网格粒子法融合:Q-FPM框架解析