尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

深入解析:港大和字节携手打造WorldWeaver:以统一建模方案整合感知条件,为长视频生成领域带来质量与一致性双重飞跃。

深入解析:港大和字节携手打造WorldWeaver:以统一建模方案整合感知条件,为长视频生成领域带来质量与一致性双重飞跃。
📅 发布时间:2026/6/19 16:16:17

深入解析:港大和字节携手打造WorldWeaver:以统一建模方案整合感知条件,为长视频生成领域带来质量与一致性双重飞跃。

生成视频建模虽有进展,但长序列结构与时间一致性保障仍是难题。现有依赖 RGB 信号的方法,会使物体结构和运动在长时间累积误差。为此港大和字节提出了一个长视频生成框架 WorldWeaver,它在一个统一长时域建模方案中联合建模 RGB 帧和感知条件。该训练框架有三大优势:联合预测增强时间一致性与运动动态;利用深度线索构建记忆库提升生成质量;采用分段噪声调度减轻漂移、降低成本。经大量实验验证,WorldWeaver 能减少时间漂移、提高生成视频保真度。其核心贡献如下:

  1. 系统探索基于图像的感知条件(如深度和光流)作为辅助信号,对增强长视界视频生成的作用。

  2. 提出统一框架,将感知条件与记忆机制结合,实现稳健的长视界视频预测。

  3. 在不同生成模型和数据集(涵盖通用和机器人操作领域)广泛验证,凸显作为可扩展世界模型基础的潜力。

WorldWeaver 与现有方法在长视域视频生成方面的比较。与其他办法 (b) 相比,WorldWeaver (a) 在长视域视频生成中建立了卓越的时间一致性和运动质量。

相关链接

  • 论文:https://arxiv.org/pdf/2508.15720

  • 项目:https://johanan528.github.io/worldweaver_web/

  • 代码:https://github.com/Johanan528/WorldWeaver1

论文介绍

论文名:WorldWeaver:借助丰富的感知生成长视界视频世界

生成视频建模已取得重大进展,但如何确保长序列的结构和时间一致性仍然是一项挑战。目前的方法主要依赖于 RGB 信号,这会导致物体结构和运动在长时间内累积误差。为了解决这些障碍,我们引入了 WorldWeaver,这是一个强大的长视频生成框架,它在一个统一的长时域建模方案中联合建模 RGB 帧和感知条件。我们的训练框架具有三大关键优势。首先,通过从统一的表示中联合预测感知条件和颜色信息,它显著增强了时间一致性和运动动态。其次,通过利用深度线索(我们观察到深度线索比 RGB 更能抵抗漂移),我们构建了一个能够保留更清晰的上下文信息的记忆库,从而提升了长时域视频生成的质量。第三,我们采用分段噪声调度来训练预测组,这进一步减轻了漂移并降低了计算成本。在基于扩散和整流流的模型上进行的大量实验证明了 WorldWeaver 在减少时间漂移和提高生成视频保真度方面的有效性。

方法概述

给定一个输入视频,RGB、深度和光流信号通过 3D VAE 编码成一个联合潜在表征。这些潜在表征被拆分成用于扩散变换器的记忆库和预测组。记忆库存储历史帧,并被排除在损失计算之外;短期记忆保留少量完全去噪的帧以获取精细细节,而长期记忆则保持深度线索无噪声,并在 RGB 信息中添加低级噪声。在训练期间,根据噪声调度器曲线,预测组被分配不同的噪声级别,与推理期间使用的噪声调度保持一致。

实验结果

WorldWeaver 生成的长视域视频结果。WorldWeaver 展现出强大的泛化能力,因为它允许应用于各种基础模型。这些结果不仅凸显了我们手段的有效性,也彰显了它作为跨领域多功能且可扩展的世界模型的潜力。

结论

深度信息(它比颜色信息更能抵抗漂移),使我们能够更好地保留历史上下文并增强时间一致性。就是论文提出了一个长视频生成框架 WorldWeaver,它在统一的长上下文建模流程下联合建模 RGB 信息和感知条件。联合预测 RGB 和感知信号可以同时提升一致性和运动质量。利用感知条件,尤其

此外,利用采用非因果预测组和确保训练与推理之间一致性的分组噪声策略,我们能够减轻漂移并降低总体训练成本。在机器人操作和野外数据集上进行的大量实验表明,WorldWeaver 提高了长时域稳定性和视觉保真度。与现有的长视频生成策略相比,它实现了卓越的一致性和漂移抑制,证明了其有效性。

相关新闻

  • 实用指南:【代码的暴力美学】-- C语言基础编程题_1
  • 集合与列表有何不同的使用场景,如何选择?
  • 102302147傅乐宜作业1

最新新闻

  • 嵌入式GUI开发实战:Alpha混合与位图绘制优化指南
  • 2026 年 6 月亨得利最新官方正式深度辟谣|拆解虚假资讯牟利底层逻辑,亨得利全直营门店资质全景深度解析 - 亨得利官方维修中心
  • 费亨得利官方公正辟谣|2026年6月最新声明:亨得利全国正规服务渠道权威公示 - 亨得利官方维修中心
  • iOS自动化测试演进:从WDA底层原理到Appium实战框架选型
  • 杭州黄金回收口碑榜单,连锁老店无隐藏收费上门回收更安心 - 奢品小当家
  • Selenium Grid架构解析与生产环境部署实践

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号