当前位置：首页 > news >正文

从 Computer Use到 Datacenter Use：如何让 AI Agent 像调用函数一样驱动数据中心？

news 2026/5/25 7:44:41

本文整理自 QCon 全球软件开发大会·2026北京站明星讲师蚂蚁集团操作系统研发经理谈鉴锋、高级开发工程师周天昱的演讲分享《From Computer Use to Datacenter Use for AI》。以下是演讲实录。大家好非常荣幸有这个分享的机会。先做一个铺垫——如果这场四十多分钟下来大家只需要记住一个词那这个词就是Datacenter Use。这是我们目前正在全力攻克的一道题。在 Agent 的时代大家现在听到的都是给 Agent 一台电脑让它自己去工作。在这个虚拟世界里面调各种 Skill调各种 MCP把大模型服务高效地运转起来。但是我们对 Agent 往下一阶段发展的判断有两个趋势。第一个趋势叫 Multi-Agent。将单一 Agent 拆分为多个角色——产品经理、开发者、测试工程师——通过角色协作与讨论得出更优的结果。本质上是把一个大脑分解为多个分工明确的角色以协同方式完成任务。第二个趋势是我们这次分享想要强调的——Datacenter Use。如果拥有一个足够聪明的大脑它真正需要的不是更多角色的配合而是更强的执行能力——直接驱动整个数据中心的算力为其所用。以一个具体场景为例构建一个炒股 Agent它所需要的远不止一个足够聪明的大模型。即便模型能力再强也无法直接理解一整年的完整交易数据。它必须自行编写程序遍历过往数年的历史数据并持续迭代优化模型——这一过程的核心瓶颈在于算力。Datacenter Use 说的就是能不能给 Agent 提供一个它马上就能直接用的算力。这是我们整体方向的出发点。现有基础设施有哪些问题理解了这个概念我们再来审视现有基础设施存在的深层问题。自 2015 年容器与云原生兴起以来整个行业按照 Gartner 成熟度曲线的规律经历了炒作期、低谷期发展至今已进入相对成熟的落地阶段。相信每家公司都有体感尤其是中大型的公司现有基础设施普遍呈现纵向分层、横向分域的架构——纵向涵盖IaaS、PaaS、SaaS三层横向划分存储、计算、网络、调度四个域。这一架构虽然层次清晰但也带来了大量跨层协调的复杂性与协同成本。现有云原生技术在支撑大促活动、故障容灾等场景方面都表现得非常优异但它们靠的是什么是演练靠日复一日地磨合。以双十一为例最初需要长达半年的准备周期逐步压缩至三个月、再到一个月。这种进步的背后是大规模的人力投入与反复演练的成本。对 AI Agent 而言这套节奏完全无法适用。Agent 需要的是分钟级甚至秒级的即时可用算力——不是准备好了再用而是当下就要有。因此我们看到了一个核心的痛点尽管云原生基础设施的工业化程度已经相当成熟但要让 Agent 真正按需调用这些算力资源二者之间仍存在难以忽视的鸿沟。还有一个现实约束同样无法回避为保障 Agent 的运行而专门维护一支五十人的运营团队无论从成本还是效率来看都难以为继这也是我们为什么要解这个问题的核心原因之一。我们在解的题Build Your Own Cluster在 Datacenter Use 的基础上我们还重点解决了一个问题——Build Your Own Cluster。Agent 真正的服务对象有可能是每一位 C 端用户。这意味着每个用户旗下的众多 Agent都需要具备 Datacenter Use 的能力。这要求 Agent 能够在全球算力资源中自主寻找低成本的计算节点动态完成多云环境下的集群调度与构建。Build Your Own Cluster 说的就是这件事。在探索解题路径的过程中我们发现 openYuanrong 的设计理念与我们的方向高度契合这里先来回顾一下它的几个关键设计。openYuanrong 有一个我们觉得非常厉害的点——分布式内核。openYuanrong 从立项之初便将分布式内核作为核心方向围绕计算、网络、存储的统一设计构建整套系统。我们一直在思考如何将系统边界收窄、技术半径缩小而分布式内核的理念与这一目标高度吻合。此外openYuanrong 提供了一套 native 存储系统也就是它的 Data System。传统强一致性分布式存储的收敛时间极长但 Agent 场景真的需要这种强一致性吗其实不需要。Agent 真正需要的是算力在哪里就在哪里搭一套足够可用的存储系统。 Data System 原生提供了 Object 对象存储与 Key-Value 存储可以直接覆盖大多数场景的存储需求省去了单独部署 Redis 等组件的成本。这里还有一个值得深思的逻辑什么是一个 Object一个 Tensor 是不是就是一个 Object当数据中心向智算时代演进openYuanrong 的存储抽象与 AI 工作负载在概念层面天然契合两套系统的融合远比表面看起来更为深入。AKernel三人如何撑起一套数据中心我们对这道题的解是 AKernel——一套为上层用户提供即时可用算力的基础设施。在实际维护中AKernel 不仅依赖 openYuanrong还集成了多个开源组件所有内容统一在同一个代码库中管理。为什么要用统一代码库原因在于我们在日常研发中以 Agentic 的方式使用 AI 进行开发统一代码库能让 AI Agent 获取完整的项目上下文将所有子项目有效串联。举一个简单的例子在结合 openYuanrong 与 AKernel 底层 AFaaS 节点侧进行容器拉起时我们曾遇到一个线上故障。当时将 Grafana 监控数据与整个大仓代码一并提供给 Claude它在五到十分钟内便定位出了具体的故障原因。若不同模块分散在各团队独立维护版本对齐、接口协议、问题定界都将带来大量隐性协作成本而大仓模式不仅让版本管理更加可控也让 AI 辅助研发真正能够发挥效能。这里有一个值得特别说明的数字——整个 AKernel 集群的研发与运维不到三人。以前维护一套完整的基础设施栈——Kubernetes、节点侧操作系统内核、上层调度系统、分布式存储——通常需要三十到五十人以上的团队。但现在我们通过极致轻量化的架构设计结合 AI 驱动的研发模式可以将需求分析、研发实现、测试验证与运维保障打通为单人可端到端覆盖的完整工作流。这打破了基础设施建设必须依赖大规模团队的固有认知。架构详解一个请求的完整旅程这是 AKernel 的整体架构图。图中以三种颜色区分了不同来源的组件橙色openYuanrong 的核心组件绿色已开源的社区组件蓝色AKernel 自研组件计划后续开源我们从端到端来讲述一下这套架构到底是怎么玩的以创建一个 Agent Sandbox 为例用户通过 SDK 或 CLI 发起资源请求流量经由公网 IP 进入 Traefik 流量网关网关根据资源类型进行路由分发。请求被路由至 openYuanrong 函数系统的 Gateway_统一入口_转发至中心调度器调度器选定空闲节点后完成任务调度。节点侧部署了 Proxy 组件类似 Kubernetes 中 Kubelet 的角色由 openYuanrong 提供负责统一管理节点资源并调用节点上的 Sandbox Daemon 创建具体的沙箱。用户定义的代码——无论是自定义 Agent还是 FaaS 的 UserCode——均在该沙箱内运行。当不同沙箱之间需要共享数据时请求会流转到 openYuanrong 的 Data Worker。每个节点都会部署一个 Data Worker多个 Data Worker 共同构成完整的 Data System支持跨节点或同节点内基于内存及扩展内存的高速数据交互。对外网络访问则通过我们自研的基于 eBPF 实现的 NAT 组件处理后出公网。这里还有一个特别值得关注的问题——万级并发下镜像拉取如何解决启动单个 Sandbox 时用户提供一个自定义 Docker 镜像这没有问题。但当需要同时拉起一万个 Sandbox 时面对一万个自定义镜像、每个 3-5 GB 的体量若全部从 Docker Hub 直接拉取带宽压力根本无法承受。为此我们做了一套镜像加载的优化流程分层来解决这个问题。第一层 Lazy Load懒加载。节点上的镜像组件不会在沙箱启动时预先下载完整镜像而是在用户代码真正访问到镜像内具体文件时才按需触发对应内容的拉取。大量从未被访问的文件层完全无需下载从而大幅降低启动阶段的 I/O 开销。第二层 Dragonfly P2P 加速。集群内部署了 Dragonfly 镜像加速组件在集群内建立镜像缓存层通过 P2P 网络在节点间分发镜像内容将大部分下载流量消化在集群内部避免所有节点同时向外部仓库发起请求。两层优化叠加效果显著未优化前需要分钟级时间优化后可稳定达到秒级。这是支撑万级 Sandbox 并发拉起的关键基础能力。开发者体验像调用本地函数一样使用数据中心AKernel 针对不同场景提供了多种接口以下重点介绍几个核心能力。Sandbox APISandbox 接口我们参考了 Modal 和 E2B提供了一套通用的 Sandbox API支持指定沙箱的资源占用如 CPU、Memory指定镜像来源Docker 镜像 URL_OCI/Nydus_S3、华为 OBS、阿里云 OSS (EROFS image) 均可天然接入Checkpoint 和 Restore可对 Sandbox 进行状态快照与恢复用于故障恢复或状态保存。_技术细节将在后续技术支柱部分详细展开。双向代理AKernel 提供了本地与 Sandbox 之间的双向网络代理能力本地 → Sandbox在集群内的 Sandbox 中运行一个 Server可将其服务直接暴露至本地实现本地对 Sandbox 内服务的直接访问。Sandbox → 本地以 RL Rollout 场景为例本地运行 vLLM 或 SGLang 推理引擎Sandbox 部署在 AKernel 集群中通过该代理可实现 Sandbox 对本地推理引擎的访问完成网络层的双向打通。多种沙箱运行时目前AKernel 已原生支持 Jupyter 与 PyTorch 等轻量级且具备强安全隔离能力的沙箱运行时后续演进规划中将进一步兼容 QEMU 等更为通用的沙箱环境。除 Sandbox 外AKernel 亦全面覆盖了 FaaS 与 Spark 等多元化 Workload 的调度与执行。全链路可观测性整套 AKernel 集群在拉起的时候就自带了一套完整的监控链路。_ 图 1_ 是针对每一个节点的资源监控可全景洞察每个节点的 CPU、Memory 及磁盘 I/O 状态。_ 图 2_ 是创建一个 Sandbox 的全链路 Trace精准记录沙箱创建的端到端耗时分布。以这个具体的例子来看端到端耗时约 50ms其中调度阶段耗时约 20ms而节点侧沙箱拉起被压缩至 10ms 以内。三大技术支柱支撑 AKernel 集群高速、稳定运转的是三大硬核技术支柱支柱一openYuanrong 分布式调度与数据系统基于 openYuanRong 的函数系统完成资源的全局调度与管控利用数据系统实现跨节点或节点内部跨 Sandbox 层次的高效数据共享。openYuanRong 的另一核心优势在于其提供了完整的运行时接入能力SDK 原生覆盖 C、Python 与 Go实现敏捷接入。我们基于此封装了 AKernel SDK让用户可以快速使用 AKernel 的资源。在数据交互层面跨节点通信依托网络实现高速流转而同节点内部则进一步借道共享内存机制实现微秒级提速。支柱二极致冷启动——AFaaS 安全沙箱OSDI’25节点侧 Sandbox 创建的底层核心依托于我们发表于 OSDI’25 的 AFaaS 按需沙箱技术。前述 Grafana 中 10ms 级的冷启动数据其底层机制是利用 Linux Kernel 的 clone 系统调用语义基于预存的沙箱状态实现极速克隆。AFaaS 的技术实现主要涵盖三大组件基于 gVisor 演进的 nanovisor提供轻量级且高安全隔离的沙箱运行时基于 Rust FUSE 实现的 distill-fs负责镜像的按需懒加载Dragonfly P2P 加速组件保障镜像的分发效率。结合前述的 Lazy Load 和 P2P 镜像分发这套组合拳使得 Agentic RL 训练涵盖蒸馏、评测等环节乃至 Agent Swarm 等高并发 Service 场景都可以实现毫秒级的 Agent Sandbox 拉起。支柱三Checkpoint / Restore全链路状态持久化我们对 openYuanRong 的函数与数据系统进行了深度改造以支撑全链路的 C/R_Checkpoint/Restore_ 能力。上图是改造了 openYuanrong 的函数系统和数据系统之后的效果。用户可通过 SDK 或 CLI 主动对已拉起的 Sandbox 发起 Checkpoint产出的快照镜像将直接存入 openYuanRong 的数据系统在用户需要做 Restore 的时候能够快速从数据系统里将这个 Checkpoint 镜像加载出来通过它做 Restore。整体链路既可以通过 SDK 和 CLI 让用户主动触发也可以通过 openYuanrong 的函数系统去检测到闲置的 Sandbox对它做自动的 Checkpoint 和 Restore。这套能力在 Agent 时代至关重要。Agent 经常有长会话、长等待、跨阶段执行的特征如果 Agent 在等待期间持续占用资源会造成大量浪费但如果直接释放资源又会丢失当前状态。C/R 能力使得 Agent 可在待机时挂起并释放算力唤醒后从断点继续执行也支持带状态的快速迁移。Agent 不再是一个无状态的短任务容器而是真正拥有状态保存、状态迁移和状态续跑能力的工作单元。一站式部署Terraform Helm10 分钟就绪AKernel 集群从设计之初便锚定一个目标——极致降低部署门槛让 Build Your Own Cluster 真正落地。以往大家更多是直接购买公有云现成资源或泛用型 Sandbox 服务开发者如果想做一些定制化的需求自己搭一套集群其实是壁垒重重的。AKernel 提供的就是这一套能力。我们想要实现的是只要把 AKernel 的仓库代码 clone 下来打开 Claude Code告诉它帮我在阿里云的香港区域部署一个 AKernel 集群它就会自动完成部署你只需要提供你的阿里云 AccessKey/SecretKey系统即自动完成全链路交付。上图是实测的效果整个部署过程从 23:18:27 开始到 23:27:06 结束总耗时 8 分 39 秒完整覆盖了从 VPC 创建、ACK 集群拉起、Node Pool 初始化到最终 Helm 部署的全链路。目前已经支持阿里云 ACK 与华为云 CCE底层通过 Terraform 完成资源创建再通过 Helm 自动完成组件编排最终由 Kubernetes 统一部署整个过程无需人工介入任何部署细节。运维方面同样做到了极简。我们提供了一套简洁的 CLI 工具可以 list 集群内所有资源包括 FaaS、Spark 或者 Sandbox也可以像 SSH 一样直接 exec 到 Sandbox 内部查看运行状态。Grafana 仪表盘以及完整的 Trace、日志链路均已做到开箱即用。核心逻辑即对话式指令下达十分钟集群就绪监控地址同步返还浏览器即刻洞察。实践验证与未来演进目前AKernel 全套能力 Agentic RL 全链路 /Serverless Function/Spark 大数据处理已在蚂蚁内部多重场景深耕落地。其核心支撑三要素集群极速拉起、openYuanRong 高效调度传输、AFaaS 底层极速启动与强安全隔离。未来AKernel 还会持续地增加对 GPU、NPU以及如阿里云含光 NPU 的支持。沙箱方面也将横拓 Windows、macOS、Android 等更加通用的沙箱。最后用三句话总结 AKernel 的核心价值第一在 AI 的时代用小规模团队完成大规模的基础设施工程——少量的人做大量的事。第二在 Agent 时代不要让基础设施的能力制约 AI Agent 的发挥以极致优化全面释放 Agent 的算力需求。第三让所有的开发者拿到代码能够即刻部署集群真正实现 Datacenter Use。当每个 AI Agent 都能便捷地使用数据中心级的算力当基础设施的门槛从五十人团队降低到三人小队AI 时代的基础设施将迎来一次全新的范式转换。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

查看全文

http://www.rkmt.cn/news/1310359.html