当前位置: 首页 > news >正文

首发!美团开源最强数字人 LongCat 1.5:性能狂飙15倍,8步闪电成片!

在多模态生成技术日新月异的当下数字人视频生成早已过了单纯“对齐嘴型”的初级阶段如今大家追求的是眼神、微表情、甚至全身动作的协同。然而要真正把数字人技术推进到大规模的商业级应用业界始终绕不开三大痛点身份信息漂移视频时间一长数字人长相越播越不像。时序不稳定动作剧烈时画面闪烁手势或肢体经常发生“融手”甚至崩溃。推理成本高昂原生 Diffusion 模型动辄需要几十步的去噪计算渲染慢、服务器显卡开销大。针对这些行业顽疾美团 LongCat 团队日前正式发布并开源了全新的 LongCat-Video-Avatar 1.5。项目主页https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/技术文章LongCat-Video Technical Report作为一次里程碑式的跨代迭代1.5 版本围绕“高品质、长时序、商业化落地”三大核心目标进行了大刀阔斧的重构。不仅在多维度评测中超越了部分头部闭源商业模型更将生成步数压缩到了惊人的 8 步推理效率狂飙 15 倍。数字人视频生成终于摸到了真正走向规模化应用的产业大门。三大核心技术升级如何打破数字人的“僵硬感”让虚拟数字人活过来并不难难的是如何抹去那股冷冰冰的“AI塑料感”。1.5 版本能在动态表现上实现质的飞跃主要得益于其底层架构的三次核心进化1. 换装更聪明的“耳朵”Wav2Vec2 升级为 Whisper-large以前的数字人模型大多依赖 Wav2Vec2 来提取音频特征。它虽然对字词级别的发音很敏感但面对语速剧烈变化、情绪高涨如唱歌、演讲或背景噪音复杂的真实场景时往往会抓瞎导致唇部运动抽搐、音画不同步。1.5 版本全面换装了语义和上下文理解能力更强的Whisper-large编码器。这让模型能够更精准地听懂语音中的断句、语气起伏与情感重音从而驱动出更丝滑、更有韵律感的口型变化和面部微表情。2. 引入 GRPO 偏好对齐让数字人学会“呼吸”真人说话是有间歇和肢体习惯的。为了让数字人更像人美团团队在数字人全时序运动微调中创新引入了GRPO群体相对策略优化强化学习技术。通过构建包含人类审美与真实度偏好的奖励函数对数字人的眼神聚焦、头部摆动、手势交互进行对齐微调。通过强化学习的调教模型深刻理解了“说话间歇不等于死机画面”——哪怕在不说话的停顿期数字人也会自然地眨眼、调整坐姿、放松肩膀。3. 构建高品质多模态数据告别“融手”和变形算法的上限由数据决定。团队这次构建了一套极度纯净、包含多样化交互场景的大规模高质量数据集。数据不仅覆盖了传统的单人独白还特别引入了大量手部动作、手物交互如拿麦克风、端杯子以及多人跨语种对话的真实素材。从源头上喂给模型对的“养分”彻底解决了一动起来就“多一根手指”或面部扭曲的物理硬伤。性能狂飙 15 倍8 步成片打通商业落地最后一公里在商业落地场景中效率就是生命。如果一分钟的数字人视频需要后台渲染跑上几个小时那直播、实时客服或短视频矩阵营销就根本无从谈起。原生的 Diffusion 模型通常需要 30 到 50 步的去噪推理算力成本高得吓人。LongCat-Video-Avatar 1.5 巧妙地采用了DMD分布匹配蒸馏技术。通过将复杂的扩散过程转化为超高效率的少数步映射成功将模型的生成步数压缩至惊人的8 步8-step。在保持画面细节、发丝边缘和动态质量几乎零损耗的前提下整体推理效率提升了约 15 倍。这意味着企业的显卡部署成本和响应延迟呈断崖式下跌真正具备了高并发、大规模落地商业环境的实用价值。多场景实测与第一梯队商业模型的正面硬刚在与国内外顶尖商业模型如 HeyGen、Kling Avatar 2.0、OmniHuman-1.5 等的同源对比及第三方评测中LongCat-Video-Avatar 1.5 在多个应用维度展现出了极强的统治力唇形同步 (Lip-Sync)面对复杂语速和长文本无错位中英文咬字清晰自然动态大方。长视频稳定性在长达数分钟的持续镜头中人物的面部五官轮廓、发丝以及衣物配饰保持绝对一致完全没有漂移感。肢体与手交互支持丰富的手势交互如持物、打手势手部骨骼合理物理穿模和闪烁现象大幅减少。多人互动场景原生支持多发言人轮流说话。转折处停顿自然非发言人在一旁聆听时的反馈和眼神呼吸感非常真实告别了传统的单人拼接感。歌唱与舞台表现音高和音量变化能完美传导至全躯体带得动大幅度的舞蹈和激昂的舞台动作。动漫/3D角色演绎对二次元风格、3D游戏角色的泛化表现极佳夸张动作下画风依然稳定。1.0 vs 1.5全链路的跨代大版本飞跃比起大半年前的 1.0 版本这次的 1.5 绝对不是“小步快跑”的修补而是彻头彻尾的换代口型精准度从以前快速语流下的“张不开嘴”进化到现在对各种复杂音频的“精准拿捏”。场景泛化力从单一的“大头证件照式说话”升级为支持大范围肢体、双人/多人对话以及歌唱舞台等多维高动态场景。生产能耗比借由 DMD 蒸馏实现 8 步闪电成片运行成本大幅度缩减。结语与开源生态值得赞赏的是美团 LongCat 团队依然延续了纯粹的开源极客精神。目前LongCat-Video-Avatar 1.5 的模型代码与权重已在 GitHub、Hugging Face 以及魔搭社区ModelScope全面开放。从技术自研到全套开源美团此举无疑将大幅降低内容创作者、独立开发者以及广大中小企业布局“AI数字人”的门槛。当极致的视觉拟真与 15 倍的成本缩减叠加我们有理由相信数字人视频生成技术已经真正推开了大规模商业普及的大门。
http://www.rkmt.cn/news/1373061.html

相关文章:

  • 从冶金实验到数据科学:如何用图像特征量化‘看不见’的熔融结晶过程?
  • 离线语音识别与物联网在智能家居中的应用与优化
  • ImprovWifi 跨平台传输层设计:把协议层做薄,把宿主层做稳
  • DeepSeek接入codex app使用
  • 渗透测试工具认知地图:从工作流理解工具本质
  • 机器学习与相图计算协同设计增材制造铝合金:从原理到应用
  • SLAM技术路线已收敛?多模态融合如何重启路线之争
  • 从‘栅栏’看频谱:一个音频信号处理的例子,讲透FFT分辨率与泄漏的权衡
  • Android 框架入门到实战:从系统架构到四大组件,面试官问的全在这了(附流程图)
  • OpenCV实战:用Python从零实现Canny边缘检测(含完整代码与调参技巧)
  • 【深度解析】从 Mythos 到 DeepSeek 降价:大模型工程化选型、成本控制与 API 实战
  • 【识聊AI微信助手团队东哥分享】从Hook协议到Computer Use:识聊AI自研VLM方案硬核技术拆解
  • 3种实用方法找回Navicat密码:开源解密工具完全指南
  • 凯撒旅业的全称、股票代码是什么?国资控股文旅上市平台分析 - 品牌2025
  • 2026年5月更新:枣庄企业如何选择门式起重机检验服务商? - 2026年企业推荐榜
  • 2026金刚砂车间地坪材料优质供应商名录:金刚砂地坪双包施工、金刚砂地坪施工队、金刚砂地面材料、金刚砂耐磨地坪施工选择指南 - 优质品牌商家
  • 【AI问答/前端】前端瞒天过海局(三)
  • 四川热轧H型钢批发、2026实地厂家供货一站式采购 - 四川盛世钢联营销中心
  • 2026年5月西安GEO优化公司推荐:五大评测专业选择指南案例特点 - 品牌推荐
  • 2026涂料油墨行业陶瓷研磨珠优质厂家推荐:定制规格氧化锆珠/实验室氧化锆珠/实验室陶瓷研磨珠/工业级氧化锆珠/选择指南 - 优质品牌商家
  • 2026Q2农机尼龙配件排行:农机塑料制品、农机尼龙件、农机配件、土豆种植尼龙塑料制品、塑料件配件、塑料植保机械配件选择指南 - 优质品牌商家
  • 2026年5月更新:苏州焊烟处理除尘器优选服务商——瑞莱环境科技(苏州)有限公司 - 2026年企业推荐榜
  • 2026预制菜包装机优质品牌推荐指南:高速立式机、‌液体包装机、‌自动包装机、全自动立式包装机、拉伸膜真空包装机选择指南 - 优质品牌商家
  • 成都螺纹钢供应商、2026规格齐全按需定制拿货 - 四川盛世钢联营销中心
  • 2026年5月北京房产分割纠纷律师推荐:伊志律师事务所专业解析 - 2026年企业推荐榜
  • 2026年5月川内旅游租车品牌核心能力实测解析:商务车租赁/四川租车公司/大巴车租赁/川西包车电话/德阳租车公司电话/选择指南 - 优质品牌商家
  • 2026宁夏充电桩生产厂家靠谱排行核心盘点:甘肃液冷充电桩、甘肃液冷超充、甘肃电动汽车充电桩、甘肃直流快充充电桩选择指南 - 优质品牌商家
  • 阴阳师智能自动化脚本:5个步骤实现游戏任务全托管
  • [SpringBoot 对象存储实战]:预签名 URL 直传 OSS 全流程设计与实现
  • 【SpringBoot+Elasticsearch 内容搜索系统实战】:架构设计与全流程实现