尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

阶跃星辰双模型开源引爆AI圈:300亿参数视频生成+实时语音对话重构多模态技术边界

阶跃星辰双模型开源引爆AI圈:300亿参数视频生成+实时语音对话重构多模态技术边界
📅 发布时间:2026/6/20 18:44:29

阶跃星辰双模型开源引爆AI圈:300亿参数视频生成+实时语音对话重构多模态技术边界

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

2025年2月18日,中国AI创业公司阶跃星辰(StepFun)联合吉利汽车集团震撼发布两项重大开源成果——300亿参数视频生成模型Step-Video-T2V与全功能实时语音交互模型Step-Audio。这一组合拳不仅刷新了开源社区多项技术纪录,更在全球AI领域引发轰动,HuggingFace官方账号及CEO接连转发相关推文,行业专家评价其"有望复制DeepSeek式的技术突破"。

如上图所示,推文详细展示了Step-Video-T2V与Step-Audio的核心技术参数及应用场景。这一发布标志着中国多模态技术正式进入"视频+语音"双引擎驱动时代,为开发者提供了前所未有的技术试验田。

作为当前开源领域参数规模最大的视频生成模型,Step-Video-T2V直接将行业基准提升至300亿参数级别,较此前腾讯混元的130亿参数实现跨越式发展。在阶跃星辰发布的11类场景评测中(涵盖运动捕捉、自然风景、人物刻画等),该模型在指令遵循度、动作流畅度、物理合理性及美学吸引力四大维度全面超越现有开源方案。技术报告显示,在"人物复杂动作"类别中,Step-Video-T2V以1273:1221的得分优势领先腾讯混元,尤其在360度旋转镜头场景中展现出惊人的细节把控能力。

实测案例中,针对"低角度旋转拍摄鼓手演奏"的提示词,模型不仅精准还原了深色T恤、浅色裤子、纹身等服饰细节,更实现了高速旋转中的画面稳定性,运镜流畅度达到专业影视级水准。另一个黑白纪实风格的案例中,"甲板渔夫冒雨收网"的场景生成令人惊叹——雨水在黝黑皮肤的反光效果、凌乱发丝的动态轨迹、远处雨雾朦胧的山景层次,均达到以假乱真的视觉效果,完美复现了二战时期的沧桑质感。

更值得关注的是模型对物理规律的理解突破。在"熊猫滑板旋转跳跃"的高难度指令中,Step-Video-T2V准确处理了熊猫与滑板的空间位置关系,跳跃过程中的重力感与落地缓冲效果自然真实,解决了当前AI视频生成普遍存在的"物理穿帮"难题。目前该模型已通过跃问APP向公众开放免费使用,开发者可通过Gitcode仓库获取完整代码与训练权重。

同步开源的Step-Audio模型则构建了实时语音交互的全栈解决方案。该系统支持情绪模拟、方言识别、多语种转换及角色音色复刻等高级功能,在"十级难度绕口令"测试中展现出98%的识别准确率。特别值得注意的是其工具调用能力,可在语音对话过程中实时联动搜索引擎与知识库,这一特性使其在智能硬件、AI玩具等消费场景具备独特优势。

截图清晰展示了HuggingFace对开源许可证的特别标注。MIT协议的采用意味着开发者可自由商用这两项技术,极大降低了AI硬件产品的技术门槛,为语音交互玩具、智能座舱系统等领域带来创新可能。

为全面评估语音模型性能,阶跃星辰创新构建了StepEval-Audio-360评测体系,从角色扮演、逻辑推理、文字游戏等9个维度进行全方位考核。结果显示,Step-Audio在"情绪语音生成"项目中获得89分(满分100),其复刻的"闺蜜悄悄话"语音样本被测试者评为"情感还原度超越真人录音"。该模型现已开放HuggingFace空间体验,技术报告详细披露了130亿参数模型的训练策略与优化细节。

成立仅22个月的阶跃星辰,已累计发布11款多模态模型,形成覆盖图像理解、视频生成、语音交互的完整技术矩阵。这种"平均每2个月一新作"的研发速度,使其成为业内公认的"多模态卷王"。麻省理工科技评论最新报告将其与智谱AI、面壁智能等并列为"DeepSeek之外值得关注的中国AI力量",认为这些企业正共同推动中国大模型技术从单点突破迈向系统创新。

在开源协议选择上,阶跃星辰采用最宽松的MIT许可证,允许商业使用与二次开发,仅要求保留原始版权声明。这种开放态度与DeepSeek的技术理想主义形成呼应,共同诠释着"让顶尖AI技术真正创造价值"的行业命题。随着Step-Video-T2V与Step-Audio的开源,中国多模态技术正从实验室走向产业应用,为智能汽车、内容创作、消费电子等领域注入新的发展动能。

当前AI行业正处于多模态融合的关键节点,视频与语音技术的突破将加速人机交互范式的革新。阶跃星辰通过持续开源构建的技术生态,不仅降低了创新门槛,更培养了本土AI人才的实践土壤。正如业内专家所言:"当DeepSeek的推理能力遇上阶跃的多模态技术,中国AI正形成群星闪耀的技术矩阵,这才是真正的星辰大海。"

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻

  • 11、探索 BPF 实用工具:从 BPFTool 到 eBPF Exporter
  • 2025-12-13:十六进制和三十六进制转化。用go语言,给定一个整数 n,先求它的平方并把该值用大写字母的 16 进制表示(符号位按需处理,数位使用 0–9 与 A–F),再求它的立方并将该值用大
  • 39、Linux内核内存管理:固定映射地址与ioremap解析

最新新闻

  • 2026南京奢品高价回收白皮书|对比全城价,杜绝低价收割闲置 - 讯息早知道
  • GPC 凝胶净化色谱|月旭 GPC 系统基质净化实测与国标配套方案 - 新闻快传
  • 6月武汉奢侈品回收,这些奢侈品包包手表首饰出手前最好心中有数 - 钦扬网络
  • NVIDIA显卡广色域显示器色彩校准终极指南:使用novideo_srgb实现专业级色彩精度
  • 沈阳家长必看!给宝宝起名千万别犯这 5 个错误 - 资讯速览
  • 2026海南正规财税机构服务商哪家强?本土十大财税公司排行榜单 - 资讯速览

日新闻

  • 信任的进化:技术实现详解——如何用JavaScript构建博弈论模拟器
  • Terrakube自定义工作流:如何集成OPA、Infracost等工具扩展IaC能力
  • grunt-concurrent快速入门:5分钟学会并行运行Grunt任务

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号