当前位置: 首页 > news >正文

model_optimizer支持用cuteDSL实现自定义fmha算子了

背景

期望在model_optimizer中使用cuteDSL来优化pi0.5 fmha性能,但是pi05 llm fmha的dim=256,tensorrt-edge-llm还不支持,只好自己实现了
下面是详细的实现步骤

1. AOT 编译(需 SM100/SM110 GPU + cutlass-dsl 4.4.1)

pip install -r kernelSrc/requirements-cutedsl.txt

python kernelSrc/build_cutedsl.py--kernelsfmha--gpu_archsm_110-j4--output_dircpp/kernels/cuteDSLArtifact

http://www.rkmt.cn/news/1399401.html

相关文章:

  • 别再手动拖了!用脚本一键将Unity场景Hierarchy结构生成UI折叠菜单(支持无限级)
  • Serverless AI外呼实战:无需运维,5步构建智能营销自动化
  • acados MPC求解器实战:8个常见错误排查与解决指南
  • 别再傻傻分不清!嵌入式调试接口JTAG和SWD的保姆级接线指南(附J-Link连接图)
  • AI API成本优化实战:不修改提示词,如何降低40%调用成本
  • AI结对编程实战:从零构建现代化个人作品集网站
  • Simulcast多流自适应技术详解
  • ARM编译器IPv6许可支持与配置指南
  • SDSS-V天文巡天项目:自动化观测与数据管理技术解析
  • 2026年靠谱的无锡不锈钢低压水泵/水泵批量采购厂家推荐 - 行业平台推荐
  • ASTRI-Horn望远镜Variance数据技术解析与应用
  • 构建统一收入数据仪表盘:从API集成到Grafana可视化的全流程实践
  • ISP V4L2驱动开发:格式支持与映射实战
  • ARMv8-M架构VMLA/VMLAS指令差异解析与优化实践
  • SVM模型内部结构解析:正交核贡献分析(ORCA)原理与应用
  • 手把手教你用FormData搞定泛微Ecology9附件上传(附完整JS代码)
  • 企业集成架构实战:从API、ESB到事件驱动,打通数字资产的核心路径
  • 氯酚类化合物电氧化过程PSO-BP-ANN预测模型【附算法】
  • matlab代做合规科普:拒绝学术作弊,解锁专业技术辅助新方式
  • 2026年比较好的会展家具租赁/展会家具租赁优质厂家汇总推荐 - 行业平台推荐
  • 加热炉制造系统马尔可夫排队建模优化方法【附程序】
  • 数据科学家与数据分析师:从业务解释到预测建模的本质差异
  • 别再被坏底板坑了!手把手教你用TTL转USB模块给ESP32-CAM烧录程序(Arduino IDE 2.1.1实测)
  • 保姆级教程:用绿联422转USB线搞定STIM300 IMU数据读取(附CRC校验与Linux驱动避坑)
  • 毕业设计救星:手把手教你让VS2019成功调用ArcEngine 10.2(附注册表修改详解)
  • 给程序员的TA入门补课:用Unity Shader复习一遍图形学渲染管线(附OpenGL对比)
  • LLM API安全测试:从提示词注入到架构防御的实战指南
  • 2026年知名的海口汽车租赁租车/海口机场接送租车/海南租车服务型公司推荐 - 品牌宣传支持者
  • 2026年热门的液冷电机/永磁同步电机/水冷电机可靠供应商推荐 - 行业平台推荐
  • OK3588开发板多屏显示实战:如何用Uboot菜单灵活切换HDMI和LVDS输出(附飞凌手册避坑点)