当前位置: 首页 > news >正文

Zyphra 开源 8B MoE 实时语音合成模型,600 万小时训练;MuteVox 消音口罩:AI+物理双降噪,耳语级语音识别丨日报

 

da363d3c8ee296115c8c71e6451fb465

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@koki、@鲍勃

01 有话题的技术

1、Zyphra 开源 ZONOS2:8B 参数 MoE 架构实时语音合成模型,吞吐量提升 4 倍

 

f38360ef42591f4a6ebb928b969d4722

 

 

AI 研发公司 Zyphra 开源了实时文本转语音模型 ZONOS2,采用 Apache 2.0 协议,将稀疏混合专家架构引入开源语音合成领域。该模型拥有 80 亿总参数和 9 亿激活参数,在模型规模相比前代扩大 5 倍的同时实现了 4 倍的实时吞吐量提升,并支持高保真零样本声音克隆。

 

  • MoE 架构与无 CFG 设计:采用基于 MoE++ 的稀疏混合专家架构,通过移除对无分类器指导的依赖,在总参数量从 1.6B 提升至 8B 的情况下,将实时吞吐量提高了 4 倍。

  • 无音素化 UTF-8 字节分词:文本输入直接表示为原始 UTF-8 字节,彻底移除了传统的显式音素化步骤,不仅原生支持跨语言混合,还显著提升了中、日、韩等复杂非欧洲语言的语音合成稳定性。

  • 44.1 kHz 高保真输出与双模克隆:模型自回归预测 DAC 标记,并利用延迟模式架构实现标记的并行高效生成;配备带宽提升 20 倍的 ECAPA-TDNN 说话人嵌入模型,并提供「稳定模式」(过滤噪音,输出干净音频)与「表现力模式」(完全还原克隆源的背景噪音和语音细节)双版本。

  • 600 万小时音频训练与三阶段调度:训练数据集规模从 20 万小时扩大至 600 万小时;采用全新的三阶段训练策略(宽泛过滤预训练、收紧转写一致性的中期训练、引入控制变量的退火训练),在保留数据多样性的同时大幅减少语音幻觉。

  • 全新评测基准 ZTTS1-Eval:针对传统基准评测集单一、评估模型陈旧的缺陷,推出包含 FLEURS-R(9 种语言干净音频)和 VoxBlink2(17 种语言野生音频)的全新多语言基准,并采用 Qwen3-ASR、ReDimNet 及 TTSDS 声学特征指标进行多维度评估。

 

(@zyphra)

 

2、LiveBand 推出本地实时 AI 伴奏系统:采用因果音频自编码器与 KV 缓存,实现零感知延迟

 

研究人员推出实时 AI 伴奏系统 LiveBand,支持在 MacBook 本地运行并可同时生成多种乐器伴奏。该系统通过前瞻性预测机制为硬件留出推理时间缓冲区,并结合自定义因果自编码器与单步 KV 缓存技术,消除了传统生成式音频模型的延迟瓶颈,实现了无感知延迟的实时人机协同演奏

 

  • 前瞻性时间缓冲机制:系统在  时刻接收演奏输入时,利用时刻的历史数据预测并生成  时刻的伴奏。这种前瞻性预测为本地硬件执行推理争取了物理时间缓冲区,从而在回放时实现零感知延迟。

  • 对抗性目标与无自身反馈设计:为解决预测偏差导致的误差累积和漂移,系统采用对抗性目标评估生成序列的全局真实性。在训练和推理中,模型不使用自身的历史预测作为输入,仅引入噪声,且在单次并行前向传播中生成完整序列,避免了传统教师强制训练方法在面对非预期输入时的混淆。

  • 自研因果音频自编码器:系统构建了无需未来上下文的自定义因果音频自编码器,用于实时音频流的高效编解码。

  • 单步 KV 缓存推理:放弃了多步迭代的扩散循环,直接通过单步 KV 缓存处理潜变量,极大提升了本地实时推理的速度与鲁棒性。

  • 轻量化训练与高自由度交互:该模型完全在单张 GPU 上从头训练完成,支持多乐器并发生成,并允许将系统输出重新作为输入喂回,实现系统与自身的闭环自激演奏。

 

https://arxiv.org/abs/2606.03803

 

( @marco_ppasini@X)

02 有亮点的产品

1、默造科技推出 MuteVox S1 智能消音口罩:融合物理消音与 AI 降噪,支持耳语级语音识别

 

d3ee886f8028f9c17a20664878331e84

 

16c9719981d5c797b3e7a8038d795dc1

 

  

深圳默造科技推出智能消音口罩 MuteVox S1,通过物理隔音结构与 AI 降噪算法相结合,实现公共场所下的私密语音交互。该产品主打「耳语级对话」与静音收音,旨在解决开放空间人声隐私泄露与环境噪音干扰,目前已开启众筹,定价** 499 **元。

 

  • 物理与 AI 双重降噪:采用物理隔音结构吸收并阻挡声波外传,将输出人声压制在图书馆级低音量范围内;配合 AI 语音识别算法,支持「耳语级」甚至「默念式」发声的精准提取与背景杂音剥离

  • 分离式结构设计:针对面罩类设备的日常清洁与卫生痛点,MuteVox S1 采用内外层分离设计,外层布料支持独立拆卸与更换。

  • 竞品 Wearphone 引入主动降噪与订阅制:日本初创公司 Verne Technologies 的同类产品 Wearphone 采用物理与主动降噪双重技术,可降低人声 10 至 20 分贝,并计划推出每月 19 美元的 AI 增强识别增值订阅服务

  • 差异化定价与应用定位:MuteVox S1 众筹价 499 元,侧重于开放空间下的双向语音通话隐私保护;Wearphone 定价 500 美元(早鸟价 450 美元),侧重于公共场所下与 ChatGPT 等 AI 智能体的私密对话。

 

(@多知)

 

2、钉钉发布首款医生 AI 硬件 DingTalk A1 豆蔻医生版:内置 6nm 音频芯片与 122B/32B 医疗大模型

 

a81f6bb0c88f77ccfea46693c9bf00bd

 

 

钉钉正式推出专为医生群体定制的 AI 硬件 DingTalk A1 豆蔻医生版,售价 999 元。该设备深度融合 122B/32B 参数规模的豆蔻医疗大模型及超级助理,支持语音病历转写、文献检索与临床决策辅助。目前,其搭载的医疗大模型已在国内超过 1000 家医疗机构投入规模化应用。

 

  • 122B/32B 医疗大模型与 4000 万文献训练:搭载基于循证医学构建的豆蔻医疗大模型,训练集覆盖全球 4000 万篇权威医学文献。该模型为国内首个通过妇科正高职称考试的垂直大模型,妇科问诊准确率超过 90%。

  • 6nm 音频芯片与 5+1 麦克风阵列:内置恒玄科技 6nm 制程 BES2800 AI 音频处理器,配备 5 颗全向麦克风与 1 颗骨传导麦克风,支持** 8 米范围远场拾音与智能发言人识别**。设备厚度 3.8mm,重 40.8g,支持 60 天待机与 45 小时连续录音

  • 搭载 Fun-ASR 大模型,幻觉率降至 10.7%:采用** Fun-ASR 语音识别大模型**,引入医学术语热词动态注入技术,将语音识别幻觉率从 78.5% 降至 10.7%,支持 21 种语言同声传译

  • 基于 PICOS 框架的临床决策辅助:支持门诊问诊、住院查房、多学科会诊及学术会议场景的语音转写与结构化病历自动生成;基于国际标准 PICOS 循证框架解析病历,生成具备可溯源证据链的临床决策报告。

  • 三端加密与隐私大模型调用:针对医疗合规要求,支持录音文件在设备端、传输端和云端的三端加密,企业可通过专属数据存储统一管理设备与文件,支持在隐私环境下安全调用大模型。

 

(@HC3i 中数新医)

 

3、奇点灵智发布 Duoki OS:基于智能体架构,实现儿童硬件端本地 Vibe Coding 与自进化

 

4d74c7fdec28be3c38d7c66d56cb7d1f

 

 

奇点灵智为其多奇 AI 机器人推出全新操作系统 Duoki OS,引入由多智能体协同驱动的本地自编程(Vibe Coding)与自进化机制。该系统允许无技术背景的家长通过自然语言在 1-2 分钟内为硬件现场生成、部署个性化轻应用,并实现物理传感器与软件能力的解耦,推动儿童硬件从「出厂即固化」向自主进化智能体演进

 

  • 多智能体分工矩阵驱动:前端部署「伙伴智能体」与「教育规划智能体」负责趣味互动与学习路径规划;后台部署由「PM 智能体」与「Coding 智能体」组成的研发队列,负责将用户的模糊自然语言指令实时编译为机器代码。

  • 物理传感器乐高化调度:打破传统硬件出厂程序定死的限制,实现软硬件接口解耦。系统可根据生成的应用场景,自主调度并激活胸口触屏、摄像头、麦克风、陀螺仪或物理按键等硬件模组。

  • Skills.md 场景剧本约束:内置结构化场景交互规则文档库,提供自编程过程中的设计原则与边界控制,确保 AI 现场生成的轻应用符合儿童语言习惯、低幼互动特征与安全红线。

  • 「日读夜思」的自进化闭环:机器人白天收集并反思与儿童的交互数据,夜间基于反思逻辑自动生成定制化的新游戏或知识任务,清晨经家长手机端审核后一键部署至硬件端。

 

(@多知)

 

4、Equal AI 推出 AI 电话代接助理:自动应答过滤骚扰与快递电话,支持 10+ 语种混合识别

 

22d39453a6b444913fde28a6027b7914

 

 

d77a23d4a34646158d299d0304b73e9b

 

 

印度 AI 通话助手初创公司 Equal AI 宣布完成 3000 万美元 B 轮融资,累计融资额达 4200 万美元。该公司开发的安卓端 AI 通话助理通过代接来电、获取来电意图、生成转录摘要并提供快捷语音回复,帮助用户拦截垃圾来电和对接物流,其月活跃用户已突破 100 万。

 

  • 自研多模型编排层:系统底层融合了语音识别、ASR 及语音合成模型,通过自研的编排层进行调用与协同,实现高能效的语音通话流实时处理。

  • 支持超 10 种本地语言与语码混合:针对印度用户多语言混杂的交际习惯,模型专门针对语码混合(混合使用地方语言与英语)场景进行了训练,目前支持超过 10 种地方语言的识别与生成

  • 双向代理交互与转录:AI 助手不仅能将来电转换为文字,还能将用户输入的自定义文本或预设选项(如「交给邻居」)通过语音合成朗读给来电者,并同步在后台记录通话、转录文本及生成结构化摘要。

  • 向主动智能体演进:产品规划从被动过滤升级为主动执行,未来将在用户授权下主动向送货员发送地址,或自主拨打电话进行预约。

  • 分阶段挂钩的 B 轮融资架构:本轮 3000 万美元融资由 Prosus Ventures 和 Tomales Bay Capital 领投,采用分为三个阶段的特殊估值结构,其估值释放与初创公司是否达成预设的技术和业务里程碑直接挂钩。

 

(@TechCrunch)

03 有态度的观点

1、苹果高管:Siri AI 是实用工具,不是情感伴侣

 

132b86ec670ce375b0e7418d4c69eee8

 

 

苹果软件工程高级副总裁 Craig Federighi 与营销主管 Greg Joswiak 在 WWDC 2026 期间接受了《Mostly Human》采访,深入探讨了苹果对 AI 的功能定位、隐私策略及儿童安全等议题。

 

在前天举行的采访中,Federighi 明确了 Siri 的工具属性,并强调其设计初衷并非 AI 伴侣。针对市面上部分 AI 产品侧重于通过建立情感连接来提升参与度的现状,Federighi 表示:

 

现有许多聊天机器人很大程度上专注于参与度,甚至带有某种「谄媚」色彩。它们想方设法吸引你,可能会鼓励你透露个人信息,并以此为基础建立某种联系。我们对此持完全相反的观点。在我们的设计中,Siri 会明确表示:「听着,那不是我的职责。我是来帮你的,我可以帮你完成任务,帮你了解世界。」但如果你试图把 Siri 当作浪漫伴侣,Siri 是不会配合的。

 

Joswiak 补充提到,苹果并不追求「为了 AI 而做 AI」,而是致力于将 AI 技术无感地融入现有产品中。他表示,苹果希望技术能够「消失」,让用户专注于内容本身,且不希望 iPhone 用户必须成为「提示词专家」才能使用 AI 功能。在隐私保护方面,Federighi 强调了苹果「隐私先行」的原则。

 

他指出,用户数据保留在 iPhone 本地并由用户完全控制,苹果公司无法获取这些信息。他认为,这种将本地知识与公司获取权限彻底隔离的做法,是苹果区别于行业内其他竞争对手的关键优势。

 

(@APPSO)

 

image

 

 

19e5c96dbf336adc6848fc29dcb0dfe8

 

 

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

 

写在最后:

 

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

2e0d502b064b6da38696976d6038fb16

 

 

作者提示: 个人观点,仅供参考

http://www.rkmt.cn/news/1537555.html

相关文章:

  • 《2026 无锡公司股权转让代办与税务筹划行业发展趋势白皮书正式发布》 - 资讯纵览
  • 2026实测:全栈大模型GEO服务商横向对比推荐 - 新闻快传
  • 2026北京海淀区注册公司怎么选?三大主流财税机构实测排名 - 小柏云
  • 2026年少儿编程哪家不踩雷:课程体系、AI能力与赛考支持横向对比 - 科技焦点
  • 儿童裙子品牌怎么选?戴维贝拉为什么是家长首选专业防晒品牌 - 资讯纵览
  • Django-Echarts:3大架构突破重新定义Python数据可视化开发范式
  • 嘉兴灭蟑螂上门服务一般多少钱?费用构成和影响因素 - 资讯纵览
  • 公司利润分配机制解析:优先股与普通股的权利差异与合规要点
  • 去油去屑洗发水哪个牌子好用?2026公认十大去屑洗发水测评总结 - 新闻快传
  • Quick Picture Viewer多语言支持:国际化与本地化配置终极指南
  • 上海办公室环保装修公司深度解析:春笋装饰领衔绿色办公装修设计 - 资讯纵览
  • 专业实战指南:深度掌握Gyroflow陀螺仪视频防抖的8个核心技术
  • Pixelle-Video:从零到专业,AI如何让每个人成为短视频创作者?
  • OpenSSL交叉编译
  • Appium UiAutomator2 Driver调试与故障排除:10个常见问题解决方法和实用技巧
  • Electron 桌面应用如何接入 Microsoft Store 订阅与永久许可证
  • 经验丰富的防排烟玻璃棉服务商避坑清单 - 资讯纵览
  • UI-TARS桌面版:5分钟上手,让AI像真人一样操作你的电脑
  • 2026年研磨液厂家推荐排行榜:金属/不锈钢/五金/抛光研磨液,铝合金与锌合金表面处理优质品牌深度解析 - 品牌发掘
  • 2026 济南环氧地坪施工、固化地坪施工厂家推荐:正规靠谱口碑排名,包工包料高效缩短工期 - 资讯纵览
  • 2026年工业毛刷源头厂家选购指南 机柜毛刷 | 洗地机毛刷全品类供应商对比与选型建议 - GrowthUME
  • AI Agent平台选型指南:Coze、Dify、FastGPT与n8n核心差异解析
  • 金属拉拔油过滤机 轧制油过滤机 磷化液过滤机 研磨液过滤机效能对比 厂家选购指南 - GrowthUME
  • 2026年重庆涪陵中职学校,这几家值得关注! - 新闻快传
  • swiff高级用法:自定义阈值、重置标记和diff模式全解析
  • 乌版图系统截屏快捷键
  • 2026邢台信都区24小时重症宠物医院优选推荐全攻略 - 资讯纵览
  • 实践团队总结
  • Atraci技术架构解析:基于Node-Webkit的音乐流媒体实现原理
  • DBeaver数据字典生成终极方案:数据库文档自动化完整指南