尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队

每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队
📅 发布时间:2026/6/23 11:56:48

引言

“12 条生产流水线、52 个工具、500+ Agent Skill——把你的 AI 编程助手变成完整的视频制作工作室。”

这是"每日一个开源项目"系列的第138篇文章。今天的主角是OpenMontage——一个开源的 Agentic 视频生产系统,用 Claude Code、Cursor 或 Codex 作为驱动引擎,把自然语言提示变成完整制作的视频。

大多数 AI 视频工具的输出是单个片段:输入提示,生成一段 5 秒的视频。OpenMontage 的设计目标不同——它模拟的是一个完整的视频制作团队:研究员、编剧、分镜师、素材制作、剪辑、合成、质量审核,每个阶段都有对应的 Agent Skill 在驱动。

起点是一句自然语言描述,终点是经过质量验证的完整视频文件。全程在你的 AI 编程助手里运行,不需要切换工具。

你将学到什么

  • OpenMontage 的三层知识体系架构:Tools / Skills / Pipeline Defs 如何协同
  • 12 条制作流水线的覆盖范围:从动画解说到纪录片蒙太奇
  • 零付费路径:不花一分钱能做出什么
  • 质量治理设计:预合成验证、滑动风险评分、预算控制
  • 7 维度提供商评分系统:AI 如何选择用哪个视频生成服务
  • 参考视频分析:输入 YouTube 链接后发生了什么

前置知识

  • 使用过 Claude Code、Cursor 或类似 AI 编程工具
  • 了解视频制作的基本流程(脚本、镜头、配音、剪辑)
  • Python 基础使用经验

项目背景

项目简介

OpenMontage 是一个 Agentic 视频生产系统,定位是"把 AI 编程助手变成完整的视频制作工作室"。

它解决的不是"用 AI 生成一段视频"的问题,而是"从零到发布的完整视频制作流程"的问题。研究内容、写脚本、规划分镜、生成素材、剪辑、合成、质量检查——这些步骤在传统视频制作里分属不同的人,在 OpenMontage 里对应不同的 Agent Skill,由 AI 编程助手按流水线顺序执行。

另一个设计重点是解决"动态假图"问题:大多数 AI 视频工具生成的是静态图片帧的动画效果,不是真正有运动的视频素材。OpenMontage 可以从 Pexels、Pixabay、Archive.org、NASA、维基共享资源等免费来源获取真实运动素材,再做蒙太奇剪辑。

作者介绍

  • 作者: calesthio
  • 社区: GitHub Discussions(展示、想法、Q&A 分类)
  • License: AGPL-3.0
  • 视频频道: @OpenMontage on YouTube

项目数据

  • ⭐ GitHub Stars:9,000+
  • 🍴 Forks: 1,300+
  • 🛠 制作工具: 52 个
  • 🎬 流水线: 12 条
  • 📚 Agent Skill: 500+
  • 📄 License: AGPL-3.0

主要功能

核心作用

传统 AI 视频工具: 提示词 → 生成单个视频片段 → 用户手动拼接 OpenMontage: "制作一个关于量子计算的 3 分钟科普视频" ↓ [研究] → 收集背景信息和事实 ↓ [提案] → 生成制作方案,包含预估费用 ↓ [脚本] → 完整旁白文本 ↓ [分镜] → 每个场景的视觉规划 ↓ [素材] → 生成/获取视频、图片、配音、音乐 ↓ [剪辑] → 组装时间线 ↓ [合成] → 渲染最终视频 ↓ [质量审核] → 帧验证 + 音频分析 + 交付检查 ↓ 完整视频文件

12 条制作流水线

流水线输出
Animated Explainer研究支撑的教育类动画视频
Documentary Montage真实素材剪辑的纪录片风格视频
Cinematic预告片、概念片、氛围短片
Clip Factory把长内容批量切成短视频
Talking Head主播/主持人视频
Avatar Spokesperson数字人发言人视频
Localization & Dub多语言翻译配音版本
Screen Demo软件操作演示录屏
Podcast Repurpose播客音频→视频剪辑集锦
Hybrid现有素材 + AI 生成内容混合
Animation动态图形、动态排版

零付费路径

不需要任何付费 API,可以完整跑通一个视频:

组件零付费方案
配音/TTSPiper(离线,免费)
视频素材Pexels、Pixabay、Archive.org、NASA、维基共享资源
图像生成Stable Diffusion(本地运行)
视频生成WAN 2.1、Hunyuan、LTX-Video(本地 GPU)
合成/渲染Remotion(React)、HyperFrames(HTML/GSAP)
后期处理FFmpeg

有付费 API 时的成本参考(来自 README):

  • Ghibli 风格动画(12 张 FLUX 图 + 音乐):$0.15
  • Pixar 风格动画短片(6 段 Kling 视频 + 配音):$1.33
  • 产品广告(仅 OpenAI):$0.69

快速开始

安装:

gitclone https://github.com/calesthio/OpenMontage.gitcdOpenMontagemakesetup

在 Claude Code 中使用:

cdOpenMontage claude# 打开 Claude Code

然后直接用自然语言描述:

制作一个 2 分钟的视频,介绍阿尔茨海默症的早期预警信号, 面向 40-60 岁的普通观众,科学严谨但不生硬, 使用真实医疗素材,不需要任何 AI 生成的人脸。

Agent 会先生成制作方案和费用估算,确认后才开始执行。


项目详细剖析

三层知识体系

OpenMontage 的架构把能力和知识分成三层:

Layer 1: 执行层 tools/ ← 52 个 Python 工具 pipeline_defs/ ← 12 条 YAML 流水线定义 schemas/ ← 15 个 JSON Schema(输入输出验证) └── 作用:定义"可以做什么"和"按什么顺序做" Layer 2: 使用规范层 skills/ ← OpenMontage 自身的使用约定 └── 作用:告诉 Agent 如何正确使用这套工具 Layer 3: 外部技术知识层 .agents/skills/ ← 深度的外部技术知识 └── 作用:关于 FFmpeg、Remotion、各提供商 API 的专业知识

500+ Agent Skill 分布在后两层,相当于把视频制作领域的专家知识打包给了 AI 编程助手。每个 Skill 是一个 Markdown 文件,包含这个步骤的专业知识、常见错误和判断标准。

渲染引擎:Remotion vs HyperFrames

OpenMontage 支持两种合成渲染引擎,各有适用场景:

Remotion(React 渲染):

  • 用 React 组件描述视频帧
  • 适合需要精确时间控制的内容:字幕、标题、数据可视化
  • 输出质量稳定,开发者可以用 React 语法定制

HyperFrames(HTML/GSAP 渲染):

  • 用 HTML + GSAP 动画描述视频
  • 适合动态排版、品牌内容、Web 风格的视觉设计
  • 自定义灵活度高

两者都通过 Node.js 在本地渲染,不依赖外部服务。

质量治理机制

这是 OpenMontage 里工程设计含量最高的部分:

预合成验证门禁:在开始渲染之前,系统检查生产承诺是否满足。如果检测到以下情况,拒绝继续执行:

  • 计划输出与脚本内容不匹配
  • 场景覆盖率低于阈值
  • 素材质量不满足目标规格

幻灯片风险评分(Slideshow Risk Score):
6 个维度评估视频是否过于"静态化"——把一堆图片拼一起假装是视频:

  • 场景平均时长
  • 运动素材占比
  • 摄像机运动检测
  • 场景切换频率
  • 音频动态范围
  • 视觉变化密度

评分超过阈值,Agent 会主动寻找更多动态素材或重新规划场景方案,而不是直接输出一个幻灯片。

预算控制:

默认配置: - 单次操作超过 $0.50 需要确认 - 总预算上限 $10 - 任何执行前先给出费用估算 调整方式: 在对话中说 "set budget cap to $5" 或者修改配置文件

渲染后自审:

  • FFprobe 验证:分辨率、帧率、码率是否符合规格
  • 关键帧提取:人工抽检视觉质量
  • 音频分析:音量、静音检测、同步验证

7 维度提供商评分系统

当同一个任务有多个可选的视频/图像生成提供商时,系统用 7 个维度打分选择:

维度权重说明
任务匹配度30%这个提供商对当前类型任务的专长
输出质量20%历史评测的质量分数
可控性15%支持多少参数精细控制
可靠性15%API 稳定性和成功率
成本效率10%单位输出的费用
延迟5%生成速度
连续性5%跨场景风格一致性能力

所有选择都写入决策审计日志,包含推理过程。出了问题可以回溯"AI 为什么选了这个提供商"。

参考视频分析功能

一个很实用的功能:提供一个 YouTube / TikTok / Reels 链接作为参考:

帮我做一个类似这个风格的视频:https://youtube.com/watch?v=xxx 主题换成量子计算,时长 2 分钟,但是面向中国观众

Agent 会分析参考视频的:

  • 旁白文本和节奏
  • 场景切换频率和节拍
  • 视觉风格类型
  • 钩子结构(前 5 秒的设计)

然后生成差异化的制作方案(不复制原视频,而是学习风格),并附上费用估算,等待确认后才开始执行。


项目地址与资源

官方资源

  • 🌟GitHub: calesthio/OpenMontage
  • 📺YouTube 频道: @OpenMontage(示例视频)
  • 💬GitHub Discussions: 展示作品、提问、提想法

技术栈参考

  • Remotion: remotion.dev
  • GSAP: greensock.com/gsap
  • Piper TTS: 开源离线 TTS

总结

OpenMontage 把视频制作这件事从"要会用十几个专业软件"变成了"在 AI 编程助手里描述你想要什么"。

12 条流水线覆盖了从科普动画到产品广告的主要视频类型;52 个工具对接了视频/图像/TTS/音乐/素材的完整供应链;质量治理机制在防止 AI 交付一个幻灯片风格的劣质输出;预算控制机制让成本可预期。

零付费路径意义在于:即使完全没有 API 预算,也能跑通整个流程理解系统是怎么工作的,再按需接入付费服务。

9k Stars 对于一个功能如此复杂的项目来说增长速度很快,说明"AI 辅助视频制作"这个方向有真实需求。


探索 PrimeSkills —— 精选 AI Agent 与技能的市场,每一个都经过真实企业工作流验证,去掉浮夸,留下真正有用的。

欢迎访问我的个人主页,发现更多有价值的见解和有趣的产品。

相关新闻

  • Childhood,23款童年卡牌游戏复刻
  • 从Copilot到Agent——我的开发工作流正在被颠覆的技术文章大纲
  • PortSwigger SQL注入LAB7 LAB8 LAB9

最新新闻

  • 一键下载B站视频:BilibiliDown跨平台下载工具完全指南
  • TV Bro:专为智能电视设计的遥控器友好型浏览器解决方案
  • i.MX23中断控制器HW_ICOLL_INTERRUPTx寄存器配置详解与实战
  • 基于 Arango 构建集成电路硬件设计知识图谱02
  • 洛雪音乐音源终极指南:3步免费解锁全网无损音乐体验
  • Microsoft MagenticLite 解读:小模型 Agent 为什么需要编排、分工和沙箱

日新闻

  • Arduino-ESP32项目深度解析:解锁隐藏芯片支持与架构演进
  • 2026年 系统窗厂家/品牌推荐榜单:隔音系统窗+高端系统门窗的核心优势与选购指南 - 品牌发掘
  • NVBench:首个双语非言语发声语音合成评测基准详解与实践

周新闻

  • Visual C++运行库修复终极指南:5分钟快速解决Windows软件启动错误
  • 手把手教你构建统计局地区经济数据爬虫:从环境搭建到数据持久化全指南
  • 2026多Agent深度解析:用AI团队替代单一模型,四种架构实战落地

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号