当前位置：首页 > news >正文

OpenAI终于下场做机器人，ChatGPT的下一站不是聊天，而是现实世界

news 2026/6/1 17:50:30

事情是这样的。

今天我刷到 Sam Altman 发了一条很短的动态。

OpenAI Robotics is hiring。

OpenAI 的机器人团队开始招人了。

就这么一句话。

但是我看到的时候，脑子里还是咯噔了一下。

因为这句话如果单独看，好像只是 OpenAI 又开了一个招聘岗位，招几个硬件工程师，招几个机器学习工程师，正常。

但是如果你把今天 AI 圈发生的几件事放在一起看，这个味道就完全不一样了。

NVIDIA 今天在讲 AI 工厂。

Runway 今天在讲世界模型。

NVIDIA Cosmos 3 在讲物理 AI。

上海的规划里也写到了多模态智能体和具身智能。

MWC 上海甚至要办人形机器人点球大战。

然后 OpenAI 在这个时间点说，我也要做机器人了。

朋友们，这事儿就不是一个招聘启事那么简单了。

我自己的感受是，AI 行业正在从一个阶段切到另一个阶段。

过去几年，我们一直在看 AI 怎么说话，怎么写文章，怎么画图，怎么写代码。

但接下来，它可能真的要开始动手了。

不是比喻意义上的动手。

是真的，有一个身体，能走到你面前，能拿起东西，能修设备，能进工厂，能进仓库，能进入现实世界。

这一下就有点吓人，也有点让人兴奋。

OpenAI 为什么现在要做机器人

很多朋友可能会觉得奇怪。

OpenAI 不是做 ChatGPT 的吗？

不是做大模型的吗？

怎么突然又开始做机器人了？

其实吧，这件事一点都不突然。

你可以把 ChatGPT 理解成一个很聪明的大脑。

它会聊天，会写代码，会总结文档，会分析问题，会帮你规划任务。

但是它一直有一个很尴尬的问题。

它没有身体。

你让它帮你写一份方案，可以。

你让它帮你分析一段代码，可以。

你让它帮你做一个 PPT，可以。

但是你让它帮你把桌上的杯子拿过来。

不行。

它只能告诉你，理论上应该先伸手，再握住杯子，然后保持平衡，再移动到目标位置。

听着挺聪明。

但杯子还在那儿。

这就是今天 AI 最大的边界之一。

它能在屏幕里完成很多事情，但一旦离开屏幕，进入真实世界，事情就变得非常麻烦。

真实世界不是一段干净的文本。

真实世界有摩擦，有重量，有光线变化，有人突然从旁边走过，有桌子边缘，有地面打滑，有杯子里的水会晃。

你在电脑里复制一段文字，永远不会因为手抖复制到一半。

但机器人拿杯子，真的会手抖。

这就是为什么机器人很难。

也是为什么 OpenAI 迟早会碰这件事。

因为如果一个 AI 公司真的相信自己在做通用智能，那它最后一定会问一个问题。

这个智能，只能待在聊天框里吗？

如果只能待在聊天框里，那它再聪明，也还是一个屏幕里的东西。

但如果它能进入现实世界，那性质就变了。

ChatGPT 是一个会说话的大脑。

机器人，是给这个大脑装上身体。

这次 OpenAI 的信号，不只是招聘

Sam Altman 这条动态里提到，他们在找全栈硬件、系统、运维和机器学习工程师。

这个组合其实很有意思。

如果只是做一个软件产品，你不会这么招人。

硬件，系统，运维，机器学习，全都要。

这更像是在搭一条完整的机器人研发链路。

而且他还提到，这个项目由 Aditya Ramesh 领导。

这个名字很多人可能不熟，但他之前和 DALL-E 有很深关系，也参与过世界模拟相关研究。

这块就很关键。

因为机器人不是简单地把大模型塞进一个铁壳子里。

不是说，你给一个机械臂接上 GPT，它就会帮你做饭。

没这么简单。

机器人需要理解世界。

它要知道一个杯子不是一张图片里的像素块，而是一个有重量、有形状、会被碰倒的物体。

它要知道门把手可以转，抽屉可以拉，玻璃杯容易碎，热水会烫。

这些东西对人来说太自然了。

自然到我们根本不觉得这是知识。

但对 AI 来说，这些都是要学的。

有时候我觉得，人类小孩真的太牛逼了。

一个两三岁的小孩，可能还说不清什么叫摩擦力，什么叫重心，什么叫物体恒存。

但是他知道杯子推到桌子边缘会掉下去。

他知道球滚到沙发底下不是消失了。

他知道妈妈把玩具藏到背后，玩具还在。

这些听着很幼稚的常识，恰恰是机器人进入现实世界最难补的课。

OpenAI 现在下场做机器人，我觉得很大一部分原因，就是大模型已经开始撞到这个边界了。

语言能力再强，如果没有对物理世界的理解，它就很难真正干活。

今天最关键的词，其实是世界模型

说到这里，就得把 Runway 和 NVIDIA 今天的动作放进来了。

Runway 宣布加入 Cosmos Coalition，和 NVIDIA 以及其他 AI 实验室一起做面向物理 AI 的开放世界模型。

NVIDIA 也在推 Cosmos 3，强调物理推理、世界理解和行动生成。

这些词听起来有点硬。

我用大白话讲。

世界模型，就是让 AI 在脑子里先模拟一下现实世界会怎么变化。

你要拿一个杯子。

手伸过去，碰到杯子，杯子会不会滑？

你用多大力，杯子会不会碎？

你拿起来之后，里面的水会不会洒？

你往左走一步，会不会撞到桌角？

人类做这些事的时候，脑子里其实一直在做预测。

只是我们太习惯了，所以没感觉。

机器人要进入现实世界，也必须有这种能力。

它不能每一步都靠试错。

因为在真实世界里，试错是有成本的。

自动驾驶试错，可能撞车。

工厂机器人试错，可能损坏设备。

家庭机器人试错，可能把你的猫吓飞。

所以它需要先在自己的「脑子」里模拟。

这也是为什么视频生成公司 Runway 会突然和世界模型挂上关系。

表面上看，视频生成是在生成一段好看的画面。

但再往深一层看，视频其实是时间里的世界变化。

一个人走路，衣服会摆动。

一个球落地，会反弹。

一辆车转弯，轮胎和地面会产生摩擦。

如果一个模型真的能生成符合物理规律的视频，那它某种程度上就在学习世界怎么运转。

这就从「生成视频」变成了「模拟世界」。

这一步很重要。

我甚至觉得，未来回头看，大家可能会发现，视频生成不是终点，而是世界模型的训练场。

NVIDIA 也在把 AI 往现实世界里推

今天 NVIDIA 的动作也非常密集。

FOX 工厂运营蓝图，DSX OS，Vera CPU，RTX Spark，本地 AI Agent。

名字很多，听着也复杂。

但它们其实都在讲一件事。

AI 不能只待在网页里，它要进入真实的生产系统。

工厂就是一个非常典型的场景。

一条产线每天有大量机器信号，有质量数据，有传感器报警，有人员调度，有维修计划。

过去这些东西要靠人看屏幕，靠老师傅经验判断，靠工程师排查。

但是如果有一个工厂里的 AI 大脑，它能实时看所有数据，发现异常，调度不同的智能体去分析原因，再给出处理方案。

这就不是聊天机器人了。

这是一个数字工厂主管。

有点科幻。

但你看 NVIDIA 的表述，他们已经在往这个方向包装了。

富士康用 FOX 和 NemoClaw 做多智能体系统，目标是把根因分析时间缩短 80%，劳动生产率提高 15%。

这个数字到底最后能不能完全跑出来，我不知道。

说实话我们还得看真实落地。

但是这个方向本身已经非常清楚了。

过去 AI Agent 讨论最多的是写代码。

Claude Code，Codex，Cursor，大家都在说一个 AI 程序员能干多少活。

但 NVIDIA 今天给的暗示是，AI Agent 不只会写代码。

它也可以进工厂。

它可以看机器。

它可以排故障。

它可以调度真实世界里的流程。

这尼玛就很有意思了。

因为一旦 AI Agent 从办公室软件进入工业系统，它的价值计算方式就完全变了。

它不再是帮你省一个小时写文档。

它可能是帮一条产线少停机十分钟。

而在工业场景里，十分钟有时候就是钱。

很多钱。

机器人为什么会成为下一个大叙事

你如果顺着这个逻辑往下想，就会发现机器人几乎是不可避免的。

因为 AI 要进入现实世界，最终一定需要某种执行器。

在软件里，执行器是 API。

你让 Agent 调接口，发邮件，查数据库，改代码。

在现实世界里，执行器是什么？

就是机器人。

可以是机械臂。

可以是自动驾驶车。

可以是仓储机器人。

可以是人形机器人。

也可以是一堆不那么像人的专用设备。

我知道很多人一听机器人，就会想到科幻电影里那种人形机器人，走进你家，端茶倒水，陪你聊天。

那个画面当然很有传播性。

但我觉得，第一波真正有价值的机器人，不一定长得像人。

它可能长得很丑。

可能就是仓库里一个会搬货的盒子。

可能就是工厂里一条会自我调整的机械臂。

可能就是医院里一个专门送药的移动平台。

可能就是农田里一个会识别杂草和病虫害的机器。

它不需要像人。

它只需要真的能干活。

这块我觉得很多人会有一个误区。

大家总想象机器人是一个「通用人类替代品」。

但现实里更可能先出现的是大量「窄场景机器人」。

它只会干一件事。

但这件事干得非常稳定，非常便宜，非常不知疲倦。

这就够了。

你想想看，工厂老板真的需要一个会聊天的机器人吗？

不需要。

他需要的是设备坏了能提前报警，物料缺了能自动调度，产线异常能快速定位。

养老院真的一开始就需要一个像真人一样的机器人吗？

也不一定。

可能先需要的是一个能安全送药、能提醒老人、能发现跌倒的系统。

所以我觉得 OpenAI 做机器人这件事，大家不要只盯着「人形机器人」四个字。

更大的问题是，AI 终于要开始从「理解任务」走向「执行任务」。

这才是关键。

苹果、上海、MWC 上海，也都在同一条线上

比较骚的事是，今天不只是 OpenAI 和 NVIDIA 在讲这个方向。

苹果那边也有消息，说 WWDC 可能会展示设备端 AI 升级，用从 Gemini 蒸馏的小模型在 iPhone 本地跑，复杂任务再路由到 Google Cloud。

这个消息如果是真的，其实说明另一个趋势。

AI 会越来越多地从云端走向设备端。

手机，电脑，机器人，车，工厂设备。

它们都需要在本地做一部分判断。

因为现实世界等不了太久。

你让一个聊天机器人慢两秒回答，最多是体验差一点。

但你让一个机器人慢两秒判断，可能就撞上了。

所以本地 AI 和物理 AI 是绑在一起的。

NVIDIA 推 RTX Spark，也是在讲这个方向。

1 petaflops AI 算力，128GB 统一内存，听起来像参数堆料。

但它真正想卖的不是参数。

它想卖的是，本地也能跑智能体。

你的电脑不再只是一个等待你点击的机器。

它可以自己观察，自己规划，自己执行。

再看国内。

上海的服务业规划里，已经明确写到了多模态智能体、智能驾驶、MaaS、具身智能、家庭养老文旅场景。

这种东西一旦进入地方产业规划，就说明它不再只是实验室里的漂亮 demo。

它开始变成产业政策、园区招商、资本布局和企业项目了。

还有 MWC 上海的人形机器人点球大战。

说真的，这个形式很妙。

因为机器人技术很多时候太抽象了。

你跟普通人讲动态平衡、自主决策、精准控制，大家听完就忘。

但是你让 8 支人形机器人队伍去踢点球。

大家一下就懂了。

它会不会摔？

它能不能判断球的位置？

它能不能踢准？

它能不能在没有人遥控的情况下完成动作？

这就是技术传播最好的方式。

把复杂技术变成一个普通人能看懂的比赛。

所以你看，OpenAI 机器人，NVIDIA 物理 AI，苹果本地模型，上海具身智能，MWC 机器人比赛。

它们表面上是几条新闻。

但背后其实是同一个方向。

AI 正在长出手脚。

当然，别太快进入科幻片

讲到这里，可能有人会开始兴奋。

是不是明年家里就有机器人了？

是不是马上就有一个 ChatGPT 机器人给我洗衣做饭带娃了？

我觉得别急。

真的别急。

机器人这事儿，历史上已经热过很多轮了。

每一轮都说马上进入家庭。

然后每一轮都被现实教育。

原因很简单。

家庭是一个极其混乱的环境。

每家的家具不一样，光线不一样，地面不一样，人的习惯不一样，孩子和宠物还会随机捣乱。

工厂虽然看起来复杂，但它至少是可控环境。

家庭反而是地狱难度。

所以我不觉得 OpenAI 一做机器人，我们明年就能买到一个通用家务机器人。

没那么快。

而且机器人还牵涉硬件成本、供应链、安全标准、售后维护、责任归属。

这些都不是发一个模型 API 能解决的。

大模型迭代可以很快。

机器人迭代没那么快。

一个软件 bug，最多重启。

一个机器人 bug，可能真的砸到脚。

这就是现实世界的残酷。

但是，慢不代表不重要。

相反，正因为难，所以谁先把这条路跑通，谁的壁垒就会非常厚。

软件产品可以被复制。

一个机器人系统如果真的能在工厂、仓库、医院、养老院稳定跑起来，那里面积累的是数据、硬件、流程、场景、运维、客户信任。

这东西不是一个周末 vibe coding 出来的。

这也是为什么我觉得 OpenAI 现在开始做机器人是合理的。

不是因为它已经准备好了一个终极机器人。

而是因为如果它再不开始积累现实世界数据和硬件经验，未来可能会发现自己只有大脑，没有身体。

对普通人来说，这事儿跟我有什么关系

可能有朋友看到这里会想。

这些都是 OpenAI、NVIDIA、Runway、上海、富士康的事。

跟我有什么关系？

我非常理解这种感觉。

你不是机器人公司老板。

你不是硬件工程师。

你也不在工厂里做自动化改造。

你就是一个普通的内容创作者、设计师、开发者、运营、创业者，或者只是一个每天被 AI 新闻轰炸到麻木的普通人。

那你要看什么？

我觉得看三件事就够了。

第一，看 AI 的能力边界正在从信息处理扩展到任务执行。

以前 AI 的核心价值是帮你处理信息。

写文章，做总结，查资料，生成图片，写代码。

未来它会越来越多地参与执行。

帮你操作电脑，帮你管理流程，帮你调度设备，甚至帮你控制机器人。

这会改变很多工作的定义。

第二，看本地 AI 会越来越重要。

只要 AI 进入现实世界，就不能所有事都等云端回复。

低延迟，隐私，安全，离线能力，都会变得重要。

所以 AI PC、本地 Agent、小模型、边缘计算这些词，未来会反复出现。

第三，看世界模型和具身智能会变成新的内容富矿。

过去讲 AI，大家讲 Prompt，讲大模型，讲 Agent。

接下来讲 AI，可能要讲机器人、自动驾驶、工厂、智能空间、家庭设备。

这对内容创作者来说，其实是机会。

因为大众对这块非常陌生。

他们需要有人把这些硬词翻译成人话。

什么叫世界模型？

什么叫物理 AI？

什么叫具身智能？

为什么机器人比聊天机器人难这么多？

为什么 NVIDIA 要讲 AI 工厂？

这些问题如果讲清楚，都是很好的内容。

而且它们不只是新闻。

它们是未来几年 AI 叙事的底层变化。

我真正兴奋的地方

说实话，我真正兴奋的不是 OpenAI 做机器人这件事本身。

大公司做机器人，不新鲜。

Google 做过，Tesla 在做，Figure 在做，宇树在做，波士顿动力更是做了好多年。

OpenAI 进来，只是让这件事的关注度一下子被拉高。

我真正兴奋的是，这些线终于开始接上了。

大模型给了 AI 一个大脑。

世界模型让它理解现实。

本地算力让它能快速反应。

机器人给它一个身体。

工厂、仓库、汽车、家庭，给它真实的任务场景。

这些东西如果单独看，都有点散。

但今天放在一起看，突然就像拼图一样，咔哒一下对上了。

那种感觉挺奇妙的。

就像过去几年我们一直在看一个孩子学说话。

它会背诗，会写作文，会解题，会跟你聊天。

我们已经觉得很厉害了。

但是现在，它开始学走路了。

走得肯定很笨。

会摔。

会撞墙。

会把杯子打翻。

甚至很长一段时间里，它看起来都不如一个两岁小孩。

但是只要它开始学走路，这件事的性质就不一样了。

因为一个会说话的 AI，是工具。

一个会行动的 AI，可能就是新物种的雏形。

我说新物种不是为了吓人。

只是怎么说呢，当智能开始从屏幕里溢出来，进入桌面、工厂、街道、车间和家里，我们对 AI 的想象就会被迫更新。

它不再只是一个窗口。

它会变成环境的一部分。

最后

我不知道 OpenAI 的机器人项目会做到什么程度。

也不知道第一代产品会不会翻车。

甚至说实话，我觉得翻车概率不低。

机器人太难了。

硬件太难了。

现实世界太难了。

但是我依然觉得这条新闻值得认真看。

因为它不是在告诉我们，明天就会有一个 ChatGPT 机器人走进家门。

它是在告诉我们，AI 行业的想象力正在换地方。

从聊天框，换到现实世界。

从写一段话，换到做一件事。

从回答问题，换到真正执行。

大时代啊，朋友们。

永远对世界保持好奇。

>>>相关资料

OpenAI Robotics 招聘动态
https://x.com/sama/status/2061117302528188712
NVIDIA Cosmos 3
https://developer.nvidia.com/blog/develop-physical-ai-reasoning-world-and-action-models-with-nvidia-cosmos-3
Runway Cosmos Coalition
https://runwayml.com/news/introducing-cosmos-coalition
NVIDIA FOX 工厂运营蓝图
https://blogs.nvidia.com/blog/factory-operations-fox-blueprint-ai-brain
上海服务业十五五规划相关报道
https://www.ithome.com/0/957/985.htm

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧！想第一时间收到推送，可以给我个星标⭐️～

谢谢你看我的文章，我们，下次再见。

>/ 作者：大强同学
>/ 更多干货，请访问：dqtx.cc