我把一坨原始素材扔进文件夹,对AI说了句话,它直接还我一条成片
你打开电脑,素材文件夹里躺着一堆视频——口播录了八遍,每遍都有“嗯”“啊”和莫名其妙的沉默;B-roll东一段西一段,时间线在脑子里但手在Pr里找不到北。
你深吸一口气,打开Premiere Pro。
然后你关掉了Premiere Pro。
不是因为你懒。是因为你只是想剪个视频,不是想考一个剪辑师证。
事情是这样的
前两天刷GitHub,看到一个叫 video-use 的项目登上了日榜TOP5。不到三个月,12.7k Star。
我本来以为又是那种“AI一键生成大片”的营销货——你输入“赛博朋克爱情故事”,它给你吐出一段四个手指头的人物在雨中尬舞。
结果点进去一看,完全不是一回事。
browser-use团队做的——就是那个靠AI浏览器自动化出圈的明星团队。这帮人的思路一直很野:不给AI看截图,给AI看结构化数据。这次他们把同样的思路用在了视频上。
图片
核心玩法,简单到离谱
把原始素材扔进一个文件夹。
打开Claude Code(或者Codex、Hermes、OpenClaw,随便哪个带shell访问的编码代理)。
说一句话:“帮我把这些剪成一条发布视频。”
然后等着拿
final.mp4
。
没了。就这么简单。
没有时间轴,没有轨道,没有关键帧,没有快捷键要记。整个过程就像跟一个会剪片的程序员同事说“帮我弄一下”,而不是坐在剪辑台前跟软件搏斗。
它到底干了啥?
你丢进去的可能是这种东西:
一段口播,里面有三个“嗯”、两个“啊”、一个说到一半重新开始
几段空镜,颜色风格完全不统一
一个想法:想要字幕、想要调色、想要在某个地方加个动画
video-use的流水线会这样处理:
剪掉废话。 “嗯”“啊”、口误、重复句、两段话之间的尴尬沉默——全部自动识别并剪掉。它靠的是ElevenLabs的语音转录,带逐词时间戳的那种,精确到每个字在几分几秒。
自动调色。 你想要“温暖电影感”还是“中性增强”?说一句话的事。每个片段独立调色,最后拼在一起视觉统一。
30ms音频淡入淡出。 每个剪辑点自动加,你永远听不到那种突兀的“啪”一声爆音。
烧字幕。 默认两词一组大写风格,适合短视频。字体、颜色、位置全都能改。
加动画。 想要画面右上角弹出一个数据增长动画?AI会调用Manim、Remotion或HyperFrames去生成。每个动画由独立的并行子代理处理,不拖慢主流程。
自己检查自己。 渲染完之后,AI会在每个剪辑点自动检查——画面有没有跳、音频有没有爆、字幕有没有被挡住。有问题就自己修,最多修三轮。只有通过自检的片子才会给你看。
记住上次干了啥。 所有进度写在
project.md
里。今天剪了一半,明天打开接着剪,上下文不丢。
最骚的是:AI根本不“看”视频
你可能想问:AI怎么知道哪里该剪?它“看”得懂画面吗?
答案是:它不看。
这是video-use最反直觉的设计。
如果让AI一帧一帧看视频——30秒、30fps的视频就是900帧,每帧1500个token——4500万个token的噪音。又贵又慢,纯属自虐。
video-use的做法是两层:
第一层:音频转录(始终加载)。 每次处理素材,先调用ElevenLabs Scribe做一次语音转文字——逐词时间戳、说话人分离、还能标出“(笑声)”“(掌声)”这种音频事件。所有素材压缩成一个12KB的文本文件。这就是AI的主要阅读材料。
第二层:视觉合成(按需调用)。 只有当AI需要确认某个停顿该不该剪、或者对比两段素材的节奏时,才生成一张“胶片条+波形图+文字标签”的合成图片看一眼。
12KB文本 + 几张图,替代4500万个token。
这思路跟browser-use如出一辙——不给AI看网页截图,给AI看结构化的DOM数据。把非结构化的视觉信息,先变成结构化的文本,再交给AI推理。
谁需要这个?
口播创作者:录完直接扔进去,“帮我剪掉所有废话”——省下最磨人的粗剪时间。
教程制作者:录了好几段讲解,需要拼成一个完整的教学视频。
播客/访谈剪辑:多段对话素材,自动拼接、去空白、加字幕。
任何人:想剪视频但不想学Premiere的人。
图片
怎么上手?
如果你在用Claude Code,直接把下面这段话贴进去,AI会自己搞定克隆、安装依赖、注册技能:
Set up https://github.com/browser-use/video-use for me. Read install.md first to install this repo, wire up ffmpeg, register the skill with whichever agent you’re running under, and set up the ElevenLabs API key — ask me to paste it when you need it.
AI会先盘点素材、提出剪辑方案、等你确认、然后执行。
说真的
视频剪辑这件事,本质上是创意表达,不是软件操作。
但过去几十年,我们把太多时间花在了后者上——学快捷键、找菜单、调参数、对时间轴。创意在脑子里,手在软件里迷路。
video-use做的事情很简单:让AI替你操作软件,你只管说“我想要什么”。
它不是要取代剪辑师。它是让每一个有想法的人,都能把想法变成视频,而不必先成为一个软件专家。
去试试。把你那堆躺了三个月的素材翻出来,扔进文件夹,对AI说句话。
看看它能还你什么。