OpenClaw 核心组件全解:Gateway、Agent、Skills、Memory 的职责与协作关系
- 1. 引言:当 AI 不再“单兵作战”
- 2. 四大核心组件全景图
- 3. Gateway(网关)—— 系统的“中枢神经系统”
- 3.1 它是什么?
- 3.2 核心职责
- 4. Agent(智能体)—— 系统的“大脑”
- 4.1 它是什么?
- 4.2 核心工作循环(Agentic Loop)
- 5. Skills(技能包)—— 系统的“工具箱”
- 5.1 它是什么?
- 5.2 三级加载体系
- 6. Memory(记忆)—— 系统的“笔记本”
- 6.1 它是什么?
- 6.2 存储结构
- 6.3 混合检索
- 7. 组件协作:一条消息的完整生命周期
- 8. 插件系统:能力扩展的“第四维”
- 8.1 公共能力模型
- 8.2 插件形态分类
- 9. 结语:一个可运行、可扩展、可治理的 Agent 操作系统
🌺The Begin🌺点点关注,收藏不迷路🌺 ⬇ ⬇ 底部 ⬇ ⬇ |
1. 引言:当 AI 不再“单兵作战”
如果你拆解过任何一个现代 AI Agent 系统,比如 OpenClaw,你会发现它绝不是一个“大模型 + 聊天界面”的简单组合。真正让它能7×24 小时持续运行、跨渠道响应、记住历史、调用工具的,是一套精心设计的组件体系。
一句话概括:OpenClaw 采用“一个网关 + 多个智能体 + 可扩展技能 + 本地记忆文件”的架构,四个核心组件各司其职,共同构成了一个可长期运行的 AI Agent 操作系统。
本文将逐一拆解 Gateway、Agent、Skills、Memory 这四大核心组件,并通过一条消息的完整生命周期,展示它们之间如何协同工作。
2. 四大核心组件全景图
3. Gateway(网关)—— 系统的“中枢神经系统”
3.1 它是什么?
Gateway 是 OpenClaw 最常驻的后台进程,默认运行在127.0.0.1:18789。它是整个系统唯一对外暴露的控制平面,所有外部交互(消息平台、CLI 工具、Web 界面、节点设备)都通过 WebSocket 协议与 Gateway 通信。
3.2 核心职责
Gateway 承担着六大核心职能:
- 消息路由:接收来自各通讯渠道(WhatsApp、Telegram、企业微信等)的消息,解析后分发给对应的 Agent 会话
- 会话管理:维护多轮对话的上下文状态,支持多会话并发
- 访问控制:验证消息发送者身份,执行白名单/黑名单策略,处理设备配对
- 事件分发:向连接的客户端(CLI、Web 控制面板、移动端应用)推送系统状态更新事件
- 安全边界:统一管理工具执行权限,决定是否允许某次操作真正落地执行
- 任务调度:内置 Cron 系统,支持定时任务的微秒级精度调度
关于并发的关键设计:OpenClaw 采用“串行优先”的队列模型——每个会话独立排队,默认串行执行,优先保证状态稳定。这个设计直接回应了 AI Agent 系统的经典问题:并发越多,状态越容易失控。多个执行过程同时读写同一会话,很容易出现竞态和权限边界模糊。
4. Agent(智能体)—— 系统的“大脑”
4.1 它是什么?
Agent 是真正调用大模型进行推理、决策并执行任务的模块。如果说 Gateway 是“接客”的,Agent 就是“干活”的。
每个 Agent 拥有独立的:
- 身份(Identity):通过
SOUL.md定义其人格、语气和行为风格 - 上下文(Context):包含系统提示词、历史对话、技能列表、记忆文件
- 工具集(Tools):可以调用的操作能力,如
browser_(浏览器控制)、exec(执行命令)、memory_search(记忆检索)
4.2 核心工作循环(Agentic Loop)
Agent 的执行遵循一个闭环循环:
5. Skills(技能包)—— 系统的“工具箱”
5.1 它是什么?
Skills 是 Agent 能力的扩展机制。每个 Skill 以文件夹形式存在,核心文件是SKILL.md,用自然语言描述“遇到某类任务时应该怎么做”。
当 Agent 在推理过程中识别到任务与某个 Skill 匹配时,会读取对应的SKILL.md来获取执行指引。
5.2 三级加载体系
OpenClaw 2026 年 2 月的稳定版引入了三级技能加载体系:
- 内置技能(Built-in Skills):系统自带的通用能力
- 本地技能(Local Skills):用户自定义的专属技能
- 插件技能(Plugin Skills):通过插件市场安装的扩展技能
开发者可以通过配置文件动态调整技能优先级,例如在金融风控场景中优先加载内置的反欺诈检测技能。
Skills 支持多层嵌套——一个 Skill 可以调用另一个 Skill,形成复杂的工作流编排能力。
6. Memory(记忆)—— 系统的“笔记本”
6.1 它是什么?
Memory 模块负责将所有重要信息以 Markdown 文件形式持久化到本地磁盘。它让 Agent 不再是“每次启动都失忆”,而是能跨会话积累经验。
6.2 存储结构
Memory 采用多层结构:
- MEMORY.md:长期记忆,存放用户偏好、关键事实、学习成果
- memory/YYYY-MM-DD.md:每日日志,记录当天的交互内容
6.3 混合检索
在每次会话开始时,Memory 模块会通过混合检索机制将相关信息加载到模型上下文中:
- 关键词搜索:通过全文索引实现精确匹配
- 向量搜索:通过 Embedding 模型实现语义检索
三个信息层次的设计区别:上下文存在于模型当次的“思维”中,记忆持久化在磁盘上,而日志保留着完整的交互历史——它们共同构成了 OpenClaw 的信息存储体系。
7. 组件协作:一条消息的完整生命周期
理解了四个组件的各自职责,再来看它们如何协同工作。假设你通过 Telegram 发出一条指令:
“帮我总结财联社上昨天最热门的 10 条新闻,并在每天早上 8 点发给我。”
这条流程清晰展示了四个组件的协作分工:
- Gateway负责“接客”——渠道适配、权限校验、会话归属
- Agent负责“想和做”——上下文组装、模型推理、工具调用循环
- Skills负责“提供专业能力”——按需加载执行指引
- Memory负责“记住一切”——跨会话持久化,让 Agent 越用越懂用户
8. 插件系统:能力扩展的“第四维”
除了四大核心组件,OpenClaw 还有一个同样关键的设计——插件系统,它为整个框架提供了横向扩展能力。
8.1 公共能力模型
OpenClaw 内部采用能力注册(Capability Registration)模式:每个原生插件通过api.registerXxxProvider(...)方法注册一项或多项能力:
| 能力类型 | 注册方法 | 示例插件 |
|---|---|---|
| 文本推理 | registerProvider | OpenAI, Anthropic |
| 语音识别/合成 | registerSpeechProvider | ElevenLabs, Microsoft |
| 媒体理解 | registerMediaUnderstandingProvider | OpenAI, Google |
| 图像生成 | registerImageGenerationProvider | OpenAI, Google, Fal |
| 渠道消息 | registerChannel | Teams, Matrix, 飞书 |
| Web 搜索 | registerWebSearchProvider |
8.2 插件形态分类
OpenClaw 会根据插件的实际注册行为将其分类为:
- plain-capability:只注册一种能力类型(如仅提供文本推理的 Mistral 插件)
- hybrid-capability:注册多种能力类型(如 OpenAI 插件同时支持文本推理、语音、媒体理解、图像生成)
- hook-only:只注册钩子,不注册能力、工具或命令(主要用于兼容旧版)
- non-capability:注册工具、命令或服务,但不注册能力
9. 结语:一个可运行、可扩展、可治理的 Agent 操作系统
OpenClaw 之所以能成为一个被全球开发者追捧的项目,不是因为它发明了新的模型架构,而是它把接入、调度、执行、记忆和扩展这些能力真正组织成了一套可运行的系统。
四个组件的关系可以用一句话总结:
Gateway 是“中枢神经”——统一接收入口、控制权限;Agent 是“大脑”——负责推理决策;Skills 是“工具箱”——提供专业技能;Memory 是“笔记本”——跨会话持久化经验。它们共同构成了一个让 AI 从“能说会道”到“真刀真枪干活”的运行框架。
🌺The End🌺点点关注,收藏不迷路🌺 ⬆ ⬆ 顶部 ⬆ ⬆ |