当前位置: 首页 > news >正文

LongLive 2.0:NVFP4 并行架构助力长视频生成,最高推理速度达 45.7 FPS!

内容概要

采用 NVFP4 技术并在训练和推理阶段均实现并行处理的架构。

新闻动态

2026 年 5 月 13 日,发布 LongLive 2.0,这是一个采用 NVFP4、具备并行处理能力且支持多镜头 AR 训练、DMD 蒸馏和推理(速度达 45.7 FPS)的架构。原始的 LongLive 1.0 代码现已移至 v1.0 分支。

2026 年 4 月 12 日,LongLive 支持使用 TriAttention 进行 kv 缓存压缩,可减少 50% 的 KV 占用且不降低质量。

2026 年 1 月 27 日,LongLive 被 ICLR - 2026 会议接收。

2026 年 1 月 11 日,LongLive 支持将原始的 RoPE 适配为 KV - cache 相对 RoPE,能够生成无限长的视频。

2025 年 11 月 3 日,在线性注意力模型 SANA - Video 上实现了 LongLive,现在 SANA - Video 可以实时生成 60 秒的交互式视频。

2025 年 9 月 29 日,发布了论文、包含所有训练和推理代码的 GitHub 仓库 LongLive、模型权重 LongLive - 1.3B 以及演示页面网站。

简介

LongLive 1.0:实时交互式长视频生成

可以在 V1.0 分支中找到相关内容。它能够接收用户的连续提示并实时生成相应的视频,支持用户引导的长视频生成。其关键特性包括注意力汇聚、KV 重缓存和流式长调优。

LongLive 2.0:用于长视频生成的 NVFP4 并行架构

训练方面:支持用于 AR 训练(教师强制)的平衡序列并行,可对多镜头(或单镜头)视频进行 AR 训练。在 AR 训练和少步蒸馏中均支持 NVFP4(或 BF16)。

推理方面:支持 NVFP4 推理(W4A4)和 NVFP4 KV 缓存、多镜头注意力汇聚、序列并行推理和异步解码。

快速上手

完整文档

安装、NVFP4 设置、训练、推理、数据组织

快速开始
BF16

给出了相应的代码示例,`place_vae_for_streaming` 函数仅在 `inference.streaming_vae` 为 `true` 且设置了 `inference.vae_device` 时才会起作用,只需在 YAML 文件中切换流式管道解码设置即可,脚本无需更改。

NVFP4

将 `configs/nvfp4/inference_nvfp4.yaml` 中的 `checkpoints.generator_ckpt` 指向下载的检查点,并根据使用的后端设置 `model_quant_use_transformer_engine`。`setup_nvfp4_pipeline` 函数负责处理检查点加载、NVFP4 模块包装、权重实例化、数据类型/设备放置以及两种后端的流式管道 VAE 重定位。这里不能使用 `bf16 pipe.to(...)` 快捷方式,因为它会转换量化缓冲区。也给出了相应的代码示例。

模型

列出了不同模型的 FPS、参数、VBench 等信息,如 LongLive - 1.3B、LongLive - 2.0 - 5B、LongLive - 2.0 - 5B - NVFP4 - 4Step、LongLive - 2.0 - 5B - NVFP4 - 2Step。

许可证

本仓库遵循 Apache 2.0 许可证。详情请见 `LICENSE` 文件。

引用

给出了引用的 bibtex 格式。

致谢

Self - Forcing:构建的 AR 训练代码库和公式基础。Wan2.2:本版本中使用的基础视频扩散模型组件。

http://www.rkmt.cn/news/1366515.html

相关文章:

  • 豆包图片去水印(一秒去除) - 政企云文档
  • 解锁GIF动画处理新维度:Gifsicle命令行工具终极指南
  • 蓝奏云API终极指南:三步实现文件直链解析的完整方案
  • 鸣潮工具箱WaveTools:3分钟解锁高帧率与专业数据分析完整指南
  • 终极实战指南:深度构建AKShare财经数据接口库的完整文档体系
  • 3分钟掌握Translumo:免费实时屏幕翻译工具终极指南
  • 如何快速实现蓝奏云直链解析:5分钟搭建专业API服务
  • 告别虚拟机卡顿:在VMware里给CentOS 7最小化安装分配多少内存和CPU才够用?
  • 终极免费方案:3种方法轻松获取Grammarly Premium高级Cookie
  • Linux系统服务“窃听”与“喊话”:dbus-monitor/dbus-send实战指南(以systemd-logind为例)
  • 高效下载B站4K高清视频:bilibili-downloader完全指南
  • 深度解析Adobe-GenP通用补丁:破解Adobe Creative Cloud许可证验证的技术架构与实战指南
  • 终极免Root SIM卡国家码修改指南:Nrfr如何帮你突破区域限制
  • 【大白话说Java面试题 第72题】【Mysql篇】第2题:为什么 MySQL 索引底层用 B+ 树不用 B 树?
  • JS-Vue
  • Anthropic 收购 Stainless「断供」OpenAI:AI 开发生态竞争新态势
  • 2026年想入手靠谱床垫?赣州南康正规生产厂家选购攻略奉上 - 品牌企业推荐师(官方)
  • SUWR:首个理论保证无泄漏的局部特征选择方法
  • MPC5604B/C 电源系统全解|车规级电源架构、低功耗、稳压、LVD 一站式吃透
  • 终极解决方案:如何用qmc-decoder快速解锁QQ音乐加密格式
  • 从游戏到实战:聊聊无人机定点空投背后的物理模型与常见误区
  • Zotero-GPT终极指南:3分钟解决“密钥未配置“错误,开启AI文献管理新时代
  • SPT-AKI存档编辑器完全指南:3分钟掌握离线塔科夫存档修改技巧
  • 别再调参了!用Python手撸一个ROCKET时间序列分类器(附完整代码与避坑指南)
  • DLSS Swapper:告别游戏卡顿,一键升级DLSS的智能管家
  • NLP文本预处理全流程实战:从数据清洗到向量化的工程实践指南
  • Mermaid在线编辑器:3步掌握技术文档图表制作的终极指南
  • 5分钟实现位图到矢量图转换:Potrace多色彩矢量化技术深度解析
  • Rusted PackFile Manager:免费创建全面战争模组的终极工具
  • 高效配置ZeroOmega代理:快速上手指南与实战技巧