我把一坨原始素材扔进文件夹，对AI说了句话，它直接还我一条成片-尧图网站建设

📅 发布时间：2026/7/2 9:36:23

我把一坨原始素材扔进文件夹，对AI说了句话，它直接还我一条成片

你打开电脑，素材文件夹里躺着一堆视频——口播录了八遍，每遍都有“嗯”“啊”和莫名其妙的沉默；B-roll东一段西一段，时间线在脑子里但手在Pr里找不到北。
你深吸一口气，打开Premiere Pro。

然后你关掉了Premiere Pro。

不是因为你懒。是因为你只是想剪个视频，不是想考一个剪辑师证。

事情是这样的
前两天刷GitHub，看到一个叫 video-use 的项目登上了日榜TOP5。不到三个月，12.7k Star。

我本来以为又是那种“AI一键生成大片”的营销货——你输入“赛博朋克爱情故事”，它给你吐出一段四个手指头的人物在雨中尬舞。

结果点进去一看，完全不是一回事。

browser-use团队做的——就是那个靠AI浏览器自动化出圈的明星团队。这帮人的思路一直很野：不给AI看截图，给AI看结构化数据。这次他们把同样的思路用在了视频上。

图片

核心玩法，简单到离谱
把原始素材扔进一个文件夹。

打开Claude Code（或者Codex、Hermes、OpenClaw，随便哪个带shell访问的编码代理）。

说一句话：“帮我把这些剪成一条发布视频。”

然后等着拿
final.mp4
。

没了。就这么简单。

没有时间轴，没有轨道，没有关键帧，没有快捷键要记。整个过程就像跟一个会剪片的程序员同事说“帮我弄一下”，而不是坐在剪辑台前跟软件搏斗。

它到底干了啥？
你丢进去的可能是这种东西：

一段口播，里面有三个“嗯”、两个“啊”、一个说到一半重新开始

几段空镜，颜色风格完全不统一

一个想法：想要字幕、想要调色、想要在某个地方加个动画

video-use的流水线会这样处理：

剪掉废话。 “嗯”“啊”、口误、重复句、两段话之间的尴尬沉默——全部自动识别并剪掉。它靠的是ElevenLabs的语音转录，带逐词时间戳的那种，精确到每个字在几分几秒。

自动调色。你想要“温暖电影感”还是“中性增强”？说一句话的事。每个片段独立调色，最后拼在一起视觉统一。

30ms音频淡入淡出。每个剪辑点自动加，你永远听不到那种突兀的“啪”一声爆音。

烧字幕。默认两词一组大写风格，适合短视频。字体、颜色、位置全都能改。

加动画。想要画面右上角弹出一个数据增长动画？AI会调用Manim、Remotion或HyperFrames去生成。每个动画由独立的并行子代理处理，不拖慢主流程。

自己检查自己。渲染完之后，AI会在每个剪辑点自动检查——画面有没有跳、音频有没有爆、字幕有没有被挡住。有问题就自己修，最多修三轮。只有通过自检的片子才会给你看。

记住上次干了啥。所有进度写在
project.md
里。今天剪了一半，明天打开接着剪，上下文不丢。

最骚的是：AI根本不“看”视频
你可能想问：AI怎么知道哪里该剪？它“看”得懂画面吗？

答案是：它不看。

这是video-use最反直觉的设计。

如果让AI一帧一帧看视频——30秒、30fps的视频就是900帧，每帧1500个token——4500万个token的噪音。又贵又慢，纯属自虐。

video-use的做法是两层：

第一层：音频转录（始终加载）。每次处理素材，先调用ElevenLabs Scribe做一次语音转文字——逐词时间戳、说话人分离、还能标出“（笑声）”“（掌声）”这种音频事件。所有素材压缩成一个12KB的文本文件。这就是AI的主要阅读材料。

第二层：视觉合成（按需调用）。只有当AI需要确认某个停顿该不该剪、或者对比两段素材的节奏时，才生成一张“胶片条+波形图+文字标签”的合成图片看一眼。

12KB文本 + 几张图，替代4500万个token。

这思路跟browser-use如出一辙——不给AI看网页截图，给AI看结构化的DOM数据。把非结构化的视觉信息，先变成结构化的文本，再交给AI推理。

谁需要这个？
口播创作者：录完直接扔进去，“帮我剪掉所有废话”——省下最磨人的粗剪时间。

教程制作者：录了好几段讲解，需要拼成一个完整的教学视频。

播客/访谈剪辑：多段对话素材，自动拼接、去空白、加字幕。

任何人：想剪视频但不想学Premiere的人。

图片

怎么上手？
如果你在用Claude Code，直接把下面这段话贴进去，AI会自己搞定克隆、安装依赖、注册技能：

Set up https://github.com/browser-use/video-use for me. Read install.md first to install this repo, wire up ffmpeg, register the skill with whichever agent you’re running under, and set up the ElevenLabs API key — ask me to paste it when you need it.

AI会先盘点素材、提出剪辑方案、等你确认、然后执行。

说真的
视频剪辑这件事，本质上是创意表达，不是软件操作。

但过去几十年，我们把太多时间花在了后者上——学快捷键、找菜单、调参数、对时间轴。创意在脑子里，手在软件里迷路。

video-use做的事情很简单：让AI替你操作软件，你只管说“我想要什么”。

它不是要取代剪辑师。它是让每一个有想法的人，都能把想法变成视频，而不必先成为一个软件专家。

去试试。把你那堆躺了三个月的素材翻出来，扔进文件夹，对AI说句话。

看看它能还你什么。