在 Sora、Sidu、Runway 满天飞的时代,为什么我们要单独把 Lightricks 发布的 **LTX-2.3** 拿出来做一键整合包?因为它解决了目前开源视频模型的最大痛点:
1. 音视频单次联合生成(炸裂级更新): 过去我们用 AI 做视频,画面是画面,声音得去别的平台配。LTX-2.3 在单次扩散中**同时产出视频和音频**,对白、音效、环境音与画面动作原生同步!
2. 原生 9:16 竖屏支持: 完美适配抖音、快手、TikTok 等短视频平台,告别了传统 16:9 裁剪导致的画面主体丢失。
3. 性能怪兽:*升级了全新的 VAE 和潜空间,支持最高 4K / 50 FPS 的超高清画面,图生视频的流畅度、控图稳定性相比 0.9 版本有了质的飞跃。
为了让大家免去配置 Python 环境、下载动辄几十 G 模型的痛苦,本期特意为大家封装了**一键解压即用整合包**(内置最新 ComfyUI 与完整权重)。
🛠️ 二、 环境要求与整合包安装
为了保证流畅运行该模型的 220 亿参数(搭载 Gemma 3 12B 作为文本编码器),建议配置如下:
操作系统: Windows 10/11 64bit*显卡需求: N卡(NVIDIA)独显,建议 显存最低8GB
存储空间: 预留约 40GB 以上固态硬盘空间(SSD 优先,拒绝卡顿)
解压路径:将压缩包解压到非中文路径的盘符根目录下(例如 D:\LTX23_Bundle)。
一键启动: 双击运行目录下的 一键启动.bat,程序会自动打开浏览器进入 ComfyUI 交互界面。
🎨 三、 核心玩法实操指南(内附工作流)
整合包内已经默认内置了*LTX-2.3 官方推荐工作流,打开即可直接切换:
1️⃣ 玩法一:Text-to-Video(文生视频 + 原生音效)
操作路径: 切换到 LTX2.3_T2V_Audio 标签页。
提示词技巧: LTX-2.3 对复杂提示词的理解非常激进。建议采用:[主体描述] + [动作/镜头语言]
> 示例提示词: > *Prompt:* A Cinematic cinematic shot of a futuristic cyberpunk sports car speeding through a neon-lit rain-soaked street. High speed, water splashing, engine roaring sound, heavy rain sound ambiance.
>
参数推荐 帧率设为 30 帧,分辨率选择 1080x1920 (竖屏),Sampler 推荐 Euler。
需要整合包,请在评论区回复:ltx2.3