当前位置: 首页 > news >正文

阶跃星辰双模型开源引爆AI圈:300亿参数视频生成+实时语音对话重构多模态技术边界

阶跃星辰双模型开源引爆AI圈:300亿参数视频生成+实时语音对话重构多模态技术边界

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

2025年2月18日,中国AI创业公司阶跃星辰(StepFun)联合吉利汽车集团震撼发布两项重大开源成果——300亿参数视频生成模型Step-Video-T2V与全功能实时语音交互模型Step-Audio。这一组合拳不仅刷新了开源社区多项技术纪录,更在全球AI领域引发轰动,HuggingFace官方账号及CEO接连转发相关推文,行业专家评价其"有望复制DeepSeek式的技术突破"。

如上图所示,推文详细展示了Step-Video-T2V与Step-Audio的核心技术参数及应用场景。这一发布标志着中国多模态技术正式进入"视频+语音"双引擎驱动时代,为开发者提供了前所未有的技术试验田。

作为当前开源领域参数规模最大的视频生成模型,Step-Video-T2V直接将行业基准提升至300亿参数级别,较此前腾讯混元的130亿参数实现跨越式发展。在阶跃星辰发布的11类场景评测中(涵盖运动捕捉、自然风景、人物刻画等),该模型在指令遵循度、动作流畅度、物理合理性及美学吸引力四大维度全面超越现有开源方案。技术报告显示,在"人物复杂动作"类别中,Step-Video-T2V以1273:1221的得分优势领先腾讯混元,尤其在360度旋转镜头场景中展现出惊人的细节把控能力。

实测案例中,针对"低角度旋转拍摄鼓手演奏"的提示词,模型不仅精准还原了深色T恤、浅色裤子、纹身等服饰细节,更实现了高速旋转中的画面稳定性,运镜流畅度达到专业影视级水准。另一个黑白纪实风格的案例中,"甲板渔夫冒雨收网"的场景生成令人惊叹——雨水在黝黑皮肤的反光效果、凌乱发丝的动态轨迹、远处雨雾朦胧的山景层次,均达到以假乱真的视觉效果,完美复现了二战时期的沧桑质感。

更值得关注的是模型对物理规律的理解突破。在"熊猫滑板旋转跳跃"的高难度指令中,Step-Video-T2V准确处理了熊猫与滑板的空间位置关系,跳跃过程中的重力感与落地缓冲效果自然真实,解决了当前AI视频生成普遍存在的"物理穿帮"难题。目前该模型已通过跃问APP向公众开放免费使用,开发者可通过Gitcode仓库获取完整代码与训练权重。

同步开源的Step-Audio模型则构建了实时语音交互的全栈解决方案。该系统支持情绪模拟、方言识别、多语种转换及角色音色复刻等高级功能,在"十级难度绕口令"测试中展现出98%的识别准确率。特别值得注意的是其工具调用能力,可在语音对话过程中实时联动搜索引擎与知识库,这一特性使其在智能硬件、AI玩具等消费场景具备独特优势。

截图清晰展示了HuggingFace对开源许可证的特别标注。MIT协议的采用意味着开发者可自由商用这两项技术,极大降低了AI硬件产品的技术门槛,为语音交互玩具、智能座舱系统等领域带来创新可能。

为全面评估语音模型性能,阶跃星辰创新构建了StepEval-Audio-360评测体系,从角色扮演、逻辑推理、文字游戏等9个维度进行全方位考核。结果显示,Step-Audio在"情绪语音生成"项目中获得89分(满分100),其复刻的"闺蜜悄悄话"语音样本被测试者评为"情感还原度超越真人录音"。该模型现已开放HuggingFace空间体验,技术报告详细披露了130亿参数模型的训练策略与优化细节。

成立仅22个月的阶跃星辰,已累计发布11款多模态模型,形成覆盖图像理解、视频生成、语音交互的完整技术矩阵。这种"平均每2个月一新作"的研发速度,使其成为业内公认的"多模态卷王"。麻省理工科技评论最新报告将其与智谱AI、面壁智能等并列为"DeepSeek之外值得关注的中国AI力量",认为这些企业正共同推动中国大模型技术从单点突破迈向系统创新。

在开源协议选择上,阶跃星辰采用最宽松的MIT许可证,允许商业使用与二次开发,仅要求保留原始版权声明。这种开放态度与DeepSeek的技术理想主义形成呼应,共同诠释着"让顶尖AI技术真正创造价值"的行业命题。随着Step-Video-T2V与Step-Audio的开源,中国多模态技术正从实验室走向产业应用,为智能汽车、内容创作、消费电子等领域注入新的发展动能。

当前AI行业正处于多模态融合的关键节点,视频与语音技术的突破将加速人机交互范式的革新。阶跃星辰通过持续开源构建的技术生态,不仅降低了创新门槛,更培养了本土AI人才的实践土壤。正如业内专家所言:"当DeepSeek的推理能力遇上阶跃的多模态技术,中国AI正形成群星闪耀的技术矩阵,这才是真正的星辰大海。"

【免费下载链接】stepvideo-t2v项目地址: https://ai.gitcode.com/StepFun/stepvideo-t2v

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

http://www.rkmt.cn/news/89866.html

相关文章:

  • 11、探索 BPF 实用工具:从 BPFTool 到 eBPF Exporter
  • 2025-12-13:十六进制和三十六进制转化。用go语言,给定一个整数 n,先求它的平方并把该值用大写字母的 16 进制表示(符号位按需处理,数位使用 0–9 与 A–F),再求它的立方并将该值用大
  • 39、Linux内核内存管理:固定映射地址与ioremap解析
  • 重磅发布:Qwen3-VL-8B-Instruct-FP8模型震撼登场,开启多模态AI应用新纪元
  • ollama v0.13.3 最新发布:新增模型与功能优化详细解读
  • 38、互联网邮件安全与Web服务器安全综合指南
  • 百度开源再放大招:ERNIE-4.5-VL-28B-A3B-Thinking颠覆多模态AI认知边界
  • 43、保障Web与文件服务安全:技术、挑战与应对策略
  • C++--哈希封装my_unordered_set和my_unordered_map
  • 一个卷积后就做池化还是多个卷积后做池化?
  • 智谱AI开源GLM-4-9B-Chat-1M:突破200万中文字符上下文壁垒,多模态能力引领行业新标杆
  • NCMconverter:解锁网易云音乐格式限制的终极解决方案
  • 知网AIGC检测原理是什么?知网AI率检测严格吗?
  • 论文降重与AIGC痕迹消除:当学术写作遇见宏智树AI学术
  • 液态智核V2震撼发布:重新定义边缘设备生成式AI体验
  • 斯坦福新框架AgentFlow突破AI决策瓶颈:模块化设计与Flow-GRPO训练法引领智能代理新范式
  • Kakao开源轻量级多模态模型Kanana-V:重新定义小参数视觉语言模型性能边界
  • Qwen3-235B-A22B-Instruct-2507震撼登场:256K超长上下文开启AI全场景应用新纪元
  • DeepSeek-Coder-V2-Instruct-0724强势登榜Aider LLM排行第二,技术突破引领代码大模型新高度
  • 18、Linux系统文件共享与安全防护指南
  • 21、Linux系统高级管理技巧全解析
  • 22、高级系统管理与故障排除技巧
  • Cesium快速入门16:Primitive多个实体与颜色修改
  • C语言实现堆排序(附带源码)
  • 后台任务与WebSocket实时应用
  • SQL分析函数`ROW_NUMBER`的兼容性与深度解析
  • Elasticsearch 的倒排索引原理
  • 一口气看懂 Android 操作系统架构 ——从“高层 App”一路挖到 “内核深处”
  • Kubernetes Master 节点核心组件全景解析
  • SolidWorks特征阵列类型及应用介绍