当前位置: 首页 > news >正文

南洋理工团队发布分层Agent框架:一句话生成短剧,质量可控但降本仍待突破

【导语:近年来视频基础模型提升了自动化短片生成能力,但现有短剧生产存在叙事、空间和质量控制方面的不足。南洋理工大学团队发布“一句话一短剧”分层Agent框架,实现一句话生成短剧,在多方面优于现有流水线,但大规模部署仍面临成本、人机协同和音频授权等问题。】


分层Agent框架打破短剧生成瓶颈

现有短剧生产依靠大语言模型的one - shot生成和松散耦合工作流,存在叙事节奏偏弱、空间一致性不足、质量控制不成熟等问题。南洋理工大学研究团队及其合作者发布的分层Agent框架“一句话一短剧”,用户只需提供一句创意,就能得到制作完整、画面精美的个性化短剧内容。

四步流程实现自动化视频生产

整个自动化视频生产流程分为故事生成、视觉素材与提示词生成、通过3D场景锚定实现一致的首帧生成、后期制作四步,审阅环节贯穿始终进行质量控制。在故事生成阶段,Agent通过检索和多Agent辩论生成结构化故事和分镜脚本,并调用节奏模式库和因果逻辑库搭建可控短剧框架。

视觉素材与提示词生成时,Agent先生成场景全景图和角色参考图,再为每个片段生成首帧与视频提示词,审阅模块会检查空间关系和道具连贯性。通过3D场景锚定实现一致的首帧生成中,Agent还原场景空间,统一人物走位、镜头位置和场景关系,保证跨镜头空间一致性。后期制作则统一处理转场、配乐和人声衔接,整合视频片段。

评测显示框架优势明显

研究团队构建了短剧评测基准Short - Drama - Bench,覆盖7大类型、17个细分题材,共生成约239分钟视频。评价体系分为VBench衡量通用视频质量,ViStoryBench评估故事可视化效果,还设置8个短剧指标。定性结果显示,该框架在跨片段视觉连续性、剧情节奏和转场处理上更优;定量结果表明,相比MovieAgent、Toonflow等竞品,该框架在多项指标上整体领先。

大规模部署仍面临挑战

该Agent框架虽有优势,但距离大规模部署存在现实限制。生成成本方面,One Sentence, One Drama平均API成本约为25 - 27美元/分钟,高于Toonflow的约21.53美元/分钟,生成一部约10分钟短剧需74 - 90分钟,降本是必须解决的问题。

人机协同支持方面,当前以自动生成为主,未来可通过交互式界面向用户开放审查分数和诊断反馈。音频授权问题上,当前BGM库采用免版税或可商用音乐,限制了风格和情绪表达多样性,接入更大规模授权音乐库可拓展商业应用场景。

编辑观点:“一句话一短剧”框架为短剧自动化生成带来了新突破,优势显著。但成本、人机协同和音频授权等问题制约其大规模应用,未来需在这些方面改进,以释放更大潜力。

http://www.rkmt.cn/news/1406415.html

相关文章:

  • 从MLOps到Agentic ML:构建自主智能的机器学习工作流
  • 忆阻器与忆容器:非易失性存储与神经形态计算
  • ChatGPT餐厅推荐生成失效真相(实测137家商户数据):当LLM遇上POI冷启动、口味漂移与节假日效应
  • 想运营陶瓷行业展示 + 询盘 + 零售外贸网站选哪家? WaiMaoYa 外贸鸭擅长打造高转化外贸站点 - 外贸独立站运营
  • MapleStory游戏资源编辑终极指南:从新手到专家的完整教程
  • 2026 AI 面试工具盘点与选型指南:如何挑选合适的面试模拟平台?
  • 告别驱动烦恼:在Ubuntu 16.04上一步步搞定CY7C68013A USB开发板的Linux环境
  • 别再瞎调了!Unity Canvas Scaler三种模式实战对比,附可运行的测试项目源码
  • 想运营储能行业原生 B2B+B2C 双模一体外贸网站找哪家合作? WaiMaoYa 外贸鸭是专业的出海建站服务商 - 外贸营销驿站
  • ChatGPT知乎爆款回答拆解(从0到10w赞的7层逻辑链)
  • 如何永久备份微信聊天记录?3步实现数据自主与隐私保护
  • 群晖NAS外网访问保姆级教程:用腾讯云DNSPod搞定DDNS,告别蜗牛QuickConnect
  • 想打造农药行业原生 B2B+B2C 双模一体出海站点哪家靠谱? WaiMaoYa 外贸鸭是专业的出海建站服务商 - 外贸独立站运营
  • 互联网大厂 Java 求职面试:微服务架构与数据库挑战
  • 如何永久保存微信聊天记录:免费工具让珍贵记忆永不丢失
  • 手把手教你:在Ubuntu 22.04上安装Python 3.8,并安全切换版本(保姆级避坑指南)
  • 基于VGSOT-MTJ的物理不可克隆函数:为物联网打造超低功耗硬件安全指纹
  • 构建无线传感器网络混合监控平台:从多维数据关联到系统级故障诊断
  • 观察不同时段调用大模型API的响应延迟变化
  • 超声STA成像运动补偿算法与低复杂度延迟生成器架构设计
  • NestJS异步任务队列实战:Bull/BullMQ高级配置与性能调优
  • 从ps到netstat:一文搞懂Linux那些“分家”的核心工具包(Debian/Ubuntu/CentOS对照)
  • 修图APP哪个好用像素蛋糕技术破局重构移动端修图标准
  • AI芯片分布式系统技术:Kernel v1.1(并行 + 插件化 + 可扩展运行时)
  • harness 与 hermes-agent 应用层次、用户与场景
  • 如何通过 Taotoken 模型广场快速选型并获取适合文本总结任务的大模型
  • 告别虚拟机卡顿:在WSL2(Ubuntu 20.04)中配置并高效运行ORB-SLAM3实战
  • 利用ToF相机深度失真实现材料分类:原理、实践与挑战
  • 构建自动化内容引擎:从API集成到工作流设计的实战指南
  • 绝区零一条龙:免费开源的全自动游戏助手终极指南