当前位置: 首页 > news >正文

云工场科技推进CPU+GPU协同推理,推动大模型应用降本增效

随着大模型应用从训练走向规模化推理算力供给正在面临新的结构性挑战。一方面高性能 GPU 资源持续紧张推理调用成本居高不下另一方面大量存量 CPU 服务器在传统通算场景之外仍有进一步释放价值的空间。如何让通用计算资源与智能计算资源形成协同成为提升大模型推理效率、降低应用成本的重要方向。围绕这一趋势云工场科技正在推进“面向大模型推理的通算智算融合调度与协同推理平台”相关研究与建设。平台依托云工场现有边缘云与智算基础设施将 CPU 通用计算资源、英伟达 GPU、AMD GPU、国产 GPU 等多架构资源纳入统一资源池探索面向大模型推理场景的异构算力协同调度能力。该平台的核心思路是让 CPU 不再仅作为传统通用计算资源而是参与到 AI 推理服务链路之中。在大模型推理过程中CPU 可承担请求接入、任务队列、数据预处理、上下文管理、KV Cache 管理、服务编排、轻量推理、Token 计量等环节GPU 则重点承担大参数模型计算、高并发矩阵运算等核心推理任务。通过“CPU 负责组织与辅助计算、GPU 负责核心推理计算”的协同架构平台有望提升整体资源利用效率缓解单一 GPU 推理模式下的资源压力。与传统 GPU 推理服务不同云工场科技此次研究的重点不只是资源层面的统一纳管而是围绕推理链路进行协同优化。平台将根据模型规模、并发请求、响应时延和成本目标动态匹配 CPU、GPU 或 CPUGPU 协同执行方式推动通算资源与智算资源在实际业务场景中的融合使用。在应用方向上该成果可面向政务问答、企业知识库、智能客服、办公助手、内容生成、行业模型推理、中小企业 AI 应用开发等场景。通过 CPUGPU 协同推理平台可在保障推理服务稳定性的基础上进一步提升存量 CPU 服务器的 AI 化利用效率释放 GPU 核心计算能力并为政府、园区、企业、开发者和 ISV 提供更加弹性、普惠、可持续的大模型推理服务。后续云工场科技将按照“资源接入—链路拆解—协同调度—场景验证—规模应用”的路径持续推进相关能力建设并结合裸金属、容器云、弹性算力、模型服务、API 调用、Token 计量等产品形态逐步形成面向城市级 AI 应用场景的通算智算融合推理服务体系。通过持续推进 CPUGPU 协同推理研究云工场科技将进一步探索存量算力资源盘活、高端 GPU 资源优化使用以及大模型应用成本下降的可行路径为 AI 应用规模化落地提供更加坚实的算力支撑。
http://www.rkmt.cn/news/1385429.html

相关文章:

  • 2026五金电子门牌技术解析:电子去向牌/礼品兑换柜/社区兑换柜/五育兑换柜/人员去向电子牌/会议电子门牌/塑胶电子门牌/选择指南 - 优质品牌商家
  • 基于ESP32的AIS转WiFi转换器:实现NMEA 0183数据无线传输
  • 2026年5月全屋定制品牌推荐:五大口碑测评环保耐用专业价格 - 品牌推荐
  • 「接雨水」问题的算法建模与双指针优化分析
  • 5分钟快速上手:免费网页版三国杀无名杀终极指南
  • 如何快速掌握yuzu Switch模拟器:从零开始的完整配置指南
  • RAG从入门到精通:Naive RAG带你秒懂检索生成技术精髓!
  • 如何让普通鼠标超越苹果触控板?Mac Mouse Fix终极指南
  • 告别繁琐操作:淘金币自动脚本如何为你每天节省25分钟
  • 复刻GameBoy示波器:从模拟前端到8位机通信的嵌入式系统实践
  • Awoo Installer:简单高效的Nintendo Switch游戏安装终极指南
  • 为什么软件开发偏爱 Linux?深度剖析 Linux 相较于 Windows 的核心优势
  • DeepSeek代码风格检查实战手册,从零配置到生产级规则定制全流程
  • claude code的替代
  • FeHelper前端助手:30+开发工具集,让你的浏览器变身效率神器
  • SQL 常用数据格式化操作方法总结
  • SQL 常用运算符操作方法总结
  • VMware ESXi 9.1.0.0集成NVME+网卡驱动版发布|新特性+驱动集成+部署升级+FAQ全指南
  • DeepSeek边缘安全沙箱深度拆解(含SEV-SNP启用失败根因分析与SGX2迁移路径)
  • iOS 17-26.5越狱技术深度解析:专业级设备定制与系统优化实战指南
  • DeepSeek-R1/VL多模态集成测试难点突破:图像-文本联合断言、上下文状态追踪与延迟敏感型验证
  • sudo高频指令【20260525】002篇-Linux sudo指令速查表
  • 对象存储迁移-组件上线
  • 钱钟书《围城》第1-5章阅读笔记:一场关于人生困境的提前预演
  • 如何让Rhino 3D模型在Blender中保持完整数据:import_3dm插件深度解析
  • 《我看见的世界:李飞飞自传》第1-6章阅读笔记:从移民少女到AI教母的“看见“之旅
  • Qt项目里图片加载太慢?试试用QOpenGLWidget+GPU加速,性能提升不止一点点
  • PCB虚焊/走线断裂/焊盘脱落工程师易漏判
  • 电容损坏深度诊断,从外观到 ESR精准区分容衰与漏电
  • 【Elasticsearch从入门到精通】第35篇:Elasticsearch CAT API完全指南——集群状态可视化查看