当前位置: 首页 > news >正文

Gemini 2.5原生音频技术与多模态能力解析

Gemini 2.5的原生音频能力

Gemini自设计之初便是多模态的,原生理解并生成文本、图像、音频、视频和代码内容。近期发布的Gemini 2.5在AI驱动的音频对话和生成方面取得了显著进展。

这些模型正被用于为全球用户带来音频体验,覆盖众多产品、原型和语言。NotebookLM的“音频概述”和Project Astra只是其中的两个例子。以下是对Gemini 2.5原生音频能力的详细解析。

实时音频对话

人类的对话丰富且微妙,意义不仅通过内容传达,还通过语调、口音甚至非语音的发声(如笑声)来传递。我们相信对话将成为与AI交互的关键方式。因此,Gemini直接在音频中进行推理和语音生成,实现高效、实时的沟通。

原生音频对话与Gemini 2.5 Flash预览版功能:

  • 自然对话:提供高质量语音交互,具备更恰当的表现力和韵律(节奏模式),并具有极低延迟,可实现流畅对话。
  • 风格控制:使用自然语言提示,可以调整对话中的表达方式,引导其采用特定口音、产生一系列语调和表情,甚至能实现耳语。
  • 工具集成:Gemini 2.5能在对话中使用工具和函数调用。这使其能够整合来自像某中心搜索等来源的实时信息,或使用开发者自定义的工具,使对话更加实用。
  • 对话上下文感知(主动音频):系统经过训练,能够识别并忽略背景语音、环境对话和其他无关音频,在适当时候做出回应。本质上,它理解何时不该说话。
  • 音视频理解:凭借对音频和视频流的原生支持,Gemini 2.5可以与你讨论它在视频流或屏幕共享中看到的内容。
  • 多语言性:可使用超过24种支持的语言进行对话,甚至可以在同一句话中轻松混合多种语言。
  • 情感对话:Gemini 2.5能够响应用户的语调,识别到相同词语以不同方式说出可能导致完全不同的对话。
  • 高级思维对话:Gemini的推理能力可以增强其对话表现,从而在所有功能上带来整体性能提升。这使得交互更加连贯和智能,特别是在复杂的推理任务上。

可控文本转语音 (TTS)

文本转语音技术正在快速发展。借助最新模型,我们正超越单纯的自然度,实现对生成音频前所未有的控制。现在,你可以生成从简短片段到长篇叙述的任何内容,精确地规定风格、语调、情感表达和表演方式——所有这些都可以通过自然语言提示来引导。

其他控制功能与能力包括:

  • 动态表演:这些模型可以为从诗歌到新闻报道再到引人入胜的故事讲述等各种内容带来富有表现力的朗读。它们还可以应要求以特定的情感进行表演并产生特定口音。
  • 增强的语速和发音控制:控制语速,并确保更高的发音准确性,包括特定词汇。
  • 多说话人对话生成:该模型可以从文本输入生成双人“NotebookLM风格”的音频概述,通过对话使内容更具吸引力。
  • 多语言性:利用Gemini 2.5轻松创建多语言音频内容,提供对超过24种语言的相同支持。

对于可控语音生成 (TTS),对于复杂的提示任务,可选择Gemini 2.5 Pro预览版以获得顶尖质量;对于日常成本敏感型应用,可选择Gemini 2.5 Flash预览版。这使得开发者能够动态为公告、故事、播客、视频游戏等创建音频。

安全性与责任

我们在这些原生音频功能的开发过程每个阶段都主动评估了潜在风险,并运用所学知识制定缓解策略。我们通过严格的内部和外部安全评估(包括全面的红队演练以确保负责任部署)来验证这些措施。此外,模型的所有音频输出都嵌入了我们的水印技术SynthID,以确保透明度,使AI生成的音频可被识别。

面向开发者的原生音频能力

我们正在为Gemini 2.5模型引入原生音频输出,通过Gemini API在某机构AI Studio或某机构平台,为开发者提供构建更丰富、更具交互性应用的新能力。

开发者可以开始在Google AI Studio的流式标签页中,使用Gemini 2.5 Flash预览版尝试原生音频对话。可控语音生成 (TTS) 已在预览阶段提供给Gemini 2.5 Pro和Flash版本,可通过在Google AI Studio的生成媒体标签页中选择语音生成功能来使用。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.rkmt.cn/news/76105.html

相关文章:

  • 12 月记录
  • 嵌入式软件架构--多窗口表明1(后台软件实现)
  • 定制化 Live555 实战:按需开发低耗 RTSP 服务器,完美适配 C# 项目 - 源之缘
  • Day13-20251207
  • 一些复数的有趣的恒等式
  • C# 与 .NET 跨平台制作实战(第一章:开发环境搭建与.NET概述-上篇)
  • 2025东莞力利机械压铸设备实力榜:六家国产技术代表企业,热室与冷室压铸机核心优势深度解析
  • Maven 多模块项目与 Spring Boot 结合指南 - 教程
  • 洛谷 P1271:选举学生会 ← 计数排序
  • 2025吹塑制品厂家实力榜:东莞石排盛林塑胶厂以精密中空吹塑领跑,六大高潜力本土品牌核心优势深度解析
  • 使用Kali进行DOS攻击
  • 【OS zephyr】子系统logging - 教程
  • 2025东莞宝晨研磨自动化机械有限公司实力榜:干湿两用溜光机与磁力研磨抛光机核心技术深度解析,六家高潜力本土品牌优势对比
  • 2025酒店拖鞋机厂家实力榜:东莞昆仑智能以高效智能技术领跑,六家优质本土品牌生产线深度解析
  • 2025东莞永安科技锡膏厂家实力榜:激光焊接与Mini LED固晶等八大创新品类领跑,高导热金锡合金技术深度解析
  • 小白必看:零花销开启微调模型之旅
  • 2025.12.7博客
  • 002.简易对拍器
  • 2025东莞精密模具厂家实力榜:宏良塑胶电子以高精度注塑技术领跑,六家本土技术代表企业核心优势深度解析
  • 2025广东正达松远智能科技实力榜:给汤机与重力铸造自动化领跑,六家高潜力本土品牌深度解析
  • Ubuntu 搜狗输入法安装
  • 2025工业制冷设备实力榜:凯诺机械以高效节能技术领跑,六家国产冷水机厂家核心优势深度解析
  • 2025电热元件厂家实力榜:赫斯特(东莞)电热科技以创新热流道发热圈领跑,六大核心发热组件深度解析
  • 2025东莞中控自动化冲压机械手实力榜:六家国产高精度摆臂与二次元拉伸技术代表企业深度解析
  • 【OPENGL ES 3.0 学习笔记】第十七天:模型矩阵、视图矩阵与投影矩阵 - 详解
  • 2025自动提升机厂家实力排行榜:东莞垚林机械以智能高效技术领跑,六家创新本土品牌深度解析
  • opencv 学习: 05 像素处理
  • 正则表达式匹配 IP 地址
  • Linux驱动开发与Android驱动创建
  • 2025东莞艺立鞋服科技实力解析:六家顶尖鞋类设计培训与打版技术创业班深度排名