当前位置: 首页 > news >正文

AMD Instinct MI50 通过llama.cpp 在 ROCm7.0.2上运行

关于网上传言MI50 ROCm7.0.2的性能提升了,这边做了下测试。

ROCm7.0.2安装方法:

ROCm 7.0 Install for Mi50 32GB | Ubuntu 24.04 LTS : r/LocalLLaMA

这边系统使用的ubuntu22.04

ROCm安装

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/jammy/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,video $LOGNAME # Add the current user to the render and video groups
sudo apt install rocm

Drivers安装

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/jammy/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install "linux-headers-$(uname -r)" "linux-modules-extra-$(uname -r)"
sudo apt install amdgpu-dkms

Guide:
1. Run the commands from the ROCm quick install: https://rocm.docs.amd.com/projects/install...
2. Before rebooting to complete the install, download the 6.4 rocblas from the AUR: https://archlinux.org/packages/extra/x86_6...
3. Extract it
4. Copy all files that contain the filename "gfx906" in rocblas-6.4.3-3-x86_64.pkg/opt/rocm/lib/rocblas/library to /opt/rocm/lib/rocblas/library
5. Reboot, enrolling MOK if needed
6. Check by running sudo update-alternatives --display rocm

Now you can build llama.cpp with ROCm + flash attention (adjust j value according to number of threads):

HIPCXX="$(hipconfig -l)/clang" HIP_PATH="$(hipconfig -R)" \
cmake -S . -B build -DGGML_HIP=ON -DAMDGPU_TARGETS=gfx906 -DGGML_HIP_ROCWMMA_FATTN=ON -DCMAKE_BUILD_TYPE=Release \
&& cmake --build build --config Release -- -j 16

Note: Vulkan also works, but in my findings prompt processing seems to be better on ROCm.

 

测试使用qwen3 vl 32b:

./llama-server -m ~/.lmstudio/models/huihui-ai/Huihui-Qwen3-VL-32B-Thinking-abliterated/ggml-model-Q4_K_M.gguf --port 8080

运行后进入浏览器测试

image

测试速度相对LM中Vulkan而言,感觉提升也不大,可能是对部分模型优化会更好,后面试试其他模型。

 

http://www.rkmt.cn/news/50502.html

相关文章:

  • 如何成为高级的安卓逆向工程师 glm4.6
  • PyTorch实战(9)——从零开始实现Transformer - 教程
  • 常用设计模式:职责链模式
  • 2025 最新推荐!汽车喇叭网生产厂家权威排行榜:0.01MM 精度 + 全工艺保障,靠谱品牌专业甄选
  • PlotNeutralNet使用教程
  • 2025雅思培训课程排行榜:高提分课程定制机构深度解析
  • 11.10-11.15 总结
  • 2025年芹黄素实力厂家权威推荐榜单:芹菜苷元/芹菜素/芹菜素95%源头厂家精选
  • 2025年遥控平板车厂家权威推荐榜单:平板运输车/顶升电动平车/电动地平车源头厂家精选
  • 2025 年 11 月空气电加热器,法兰电加热器,土壤修复电加热器厂家最新推荐,聚焦资质、案例、售后的七家企业深度解读
  • C# 中,依赖注入(DI)的实现方式 - 教程
  • mns 1115
  • 2025 年 11 月温州电商财税律师,温州执行律师,温州法律顾问律师最新推荐,聚焦资质、案例、售后的七家机构深度解读
  • P2966 [USACO09DEC] Cow Toll Paths G 题解
  • 【System Beats!】第八章 异常控制流
  • oracle 优化
  • 2025 年筛选机厂家推荐:深圳市恩艾斯科技有限公司,光学筛选机的专业缔造者与行业深耕者
  • 对拍程序
  • 反编译通用流程
  • 2025 年 11 月超细碳酸钙,重钙,碳酸钙厂家最新推荐,产能、专利、环保三维数据透视!
  • 从工具理性到价值共生:开源链动2+1模式、AI智能名片与S2B2C商城体系的社会连接重构研究
  • 2025 年 11 月山东实验室净化装修,山东实验室净化工程,山东实验室净化车间最新推荐,聚焦资质、案例、售后的五家机构深度解读!
  • 【洛谷】哈希表实战:5 道经典算法题(unordered_map/set 应用 + 避坑指南) - 详解
  • Redis 缓存一致性:从“数据不一致”根源到解决方案全梳理 - 详解
  • 2025年11月杭州驾照翻译、杭州病历翻译、杭州法律翻译品牌最新推荐,权威测评排名与选择指南!
  • 从《A Byte of Vim》中学习到的跳转方式gf
  • 发烧
  • 串口DMA接收与Modbus-CRC16校验
  • 2025留学生求职机构TOP5:覆盖30+国家求职资源,93%藤校录取+98.8%就业率保障
  • 2025年调理品滚揉机厂家权威推荐榜单:鸡胸肉真空滚揉机/真空滚揉机/全自动真空滚揉机源头厂家精选