当前位置：首页 > news >正文

首发！美团开源最强数字人 LongCat 1.5：性能狂飙15倍，8步闪电成片！

news 2026/5/26 7:26:14

在多模态生成技术日新月异的当下数字人视频生成早已过了单纯“对齐嘴型”的初级阶段如今大家追求的是眼神、微表情、甚至全身动作的协同。然而要真正把数字人技术推进到大规模的商业级应用业界始终绕不开三大痛点身份信息漂移视频时间一长数字人长相越播越不像。时序不稳定动作剧烈时画面闪烁手势或肢体经常发生“融手”甚至崩溃。推理成本高昂原生 Diffusion 模型动辄需要几十步的去噪计算渲染慢、服务器显卡开销大。针对这些行业顽疾美团 LongCat 团队日前正式发布并开源了全新的 LongCat-Video-Avatar 1.5。项目主页https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/技术文章LongCat-Video Technical Report作为一次里程碑式的跨代迭代1.5 版本围绕“高品质、长时序、商业化落地”三大核心目标进行了大刀阔斧的重构。不仅在多维度评测中超越了部分头部闭源商业模型更将生成步数压缩到了惊人的 8 步推理效率狂飙 15 倍。数字人视频生成终于摸到了真正走向规模化应用的产业大门。三大核心技术升级如何打破数字人的“僵硬感”让虚拟数字人活过来并不难难的是如何抹去那股冷冰冰的“AI塑料感”。1.5 版本能在动态表现上实现质的飞跃主要得益于其底层架构的三次核心进化1. 换装更聪明的“耳朵”Wav2Vec2 升级为 Whisper-large以前的数字人模型大多依赖 Wav2Vec2 来提取音频特征。它虽然对字词级别的发音很敏感但面对语速剧烈变化、情绪高涨如唱歌、演讲或背景噪音复杂的真实场景时往往会抓瞎导致唇部运动抽搐、音画不同步。1.5 版本全面换装了语义和上下文理解能力更强的Whisper-large编码器。这让模型能够更精准地听懂语音中的断句、语气起伏与情感重音从而驱动出更丝滑、更有韵律感的口型变化和面部微表情。2. 引入 GRPO 偏好对齐让数字人学会“呼吸”真人说话是有间歇和肢体习惯的。为了让数字人更像人美团团队在数字人全时序运动微调中创新引入了GRPO群体相对策略优化强化学习技术。通过构建包含人类审美与真实度偏好的奖励函数对数字人的眼神聚焦、头部摆动、手势交互进行对齐微调。通过强化学习的调教模型深刻理解了“说话间歇不等于死机画面”——哪怕在不说话的停顿期数字人也会自然地眨眼、调整坐姿、放松肩膀。3. 构建高品质多模态数据告别“融手”和变形算法的上限由数据决定。团队这次构建了一套极度纯净、包含多样化交互场景的大规模高质量数据集。数据不仅覆盖了传统的单人独白还特别引入了大量手部动作、手物交互如拿麦克风、端杯子以及多人跨语种对话的真实素材。从源头上喂给模型对的“养分”彻底解决了一动起来就“多一根手指”或面部扭曲的物理硬伤。性能狂飙 15 倍8 步成片打通商业落地最后一公里在商业落地场景中效率就是生命。如果一分钟的数字人视频需要后台渲染跑上几个小时那直播、实时客服或短视频矩阵营销就根本无从谈起。原生的 Diffusion 模型通常需要 30 到 50 步的去噪推理算力成本高得吓人。LongCat-Video-Avatar 1.5 巧妙地采用了DMD分布匹配蒸馏技术。通过将复杂的扩散过程转化为超高效率的少数步映射成功将模型的生成步数压缩至惊人的8 步8-step。在保持画面细节、发丝边缘和动态质量几乎零损耗的前提下整体推理效率提升了约 15 倍。这意味着企业的显卡部署成本和响应延迟呈断崖式下跌真正具备了高并发、大规模落地商业环境的实用价值。多场景实测与第一梯队商业模型的正面硬刚在与国内外顶尖商业模型如 HeyGen、Kling Avatar 2.0、OmniHuman-1.5 等的同源对比及第三方评测中LongCat-Video-Avatar 1.5 在多个应用维度展现出了极强的统治力唇形同步 (Lip-Sync)面对复杂语速和长文本无错位中英文咬字清晰自然动态大方。长视频稳定性在长达数分钟的持续镜头中人物的面部五官轮廓、发丝以及衣物配饰保持绝对一致完全没有漂移感。肢体与手交互支持丰富的手势交互如持物、打手势手部骨骼合理物理穿模和闪烁现象大幅减少。多人互动场景原生支持多发言人轮流说话。转折处停顿自然非发言人在一旁聆听时的反馈和眼神呼吸感非常真实告别了传统的单人拼接感。歌唱与舞台表现音高和音量变化能完美传导至全躯体带得动大幅度的舞蹈和激昂的舞台动作。动漫/3D角色演绎对二次元风格、3D游戏角色的泛化表现极佳夸张动作下画风依然稳定。1.0 vs 1.5全链路的跨代大版本飞跃比起大半年前的 1.0 版本这次的 1.5 绝对不是“小步快跑”的修补而是彻头彻尾的换代口型精准度从以前快速语流下的“张不开嘴”进化到现在对各种复杂音频的“精准拿捏”。场景泛化力从单一的“大头证件照式说话”升级为支持大范围肢体、双人/多人对话以及歌唱舞台等多维高动态场景。生产能耗比借由 DMD 蒸馏实现 8 步闪电成片运行成本大幅度缩减。结语与开源生态值得赞赏的是美团 LongCat 团队依然延续了纯粹的开源极客精神。目前LongCat-Video-Avatar 1.5 的模型代码与权重已在 GitHub、Hugging Face 以及魔搭社区ModelScope全面开放。从技术自研到全套开源美团此举无疑将大幅降低内容创作者、独立开发者以及广大中小企业布局“AI数字人”的门槛。当极致的视觉拟真与 15 倍的成本缩减叠加我们有理由相信数字人视频生成技术已经真正推开了大规模商业普及的大门。

查看全文

http://www.rkmt.cn/news/1373061.html