-尧图网站建设

📅 发布时间：2026/6/20 5:17:33

Gemini 2.5的原生音频能力

Gemini自设计之初便是多模态的，原生理解并生成文本、图像、音频、视频和代码内容。近期发布的Gemini 2.5在AI驱动的音频对话和生成方面取得了显著进展。

这些模型正被用于为全球用户带来音频体验，覆盖众多产品、原型和语言。NotebookLM的“音频概述”和Project Astra只是其中的两个例子。以下是对Gemini 2.5原生音频能力的详细解析。

实时音频对话

人类的对话丰富且微妙，意义不仅通过内容传达，还通过语调、口音甚至非语音的发声（如笑声）来传递。我们相信对话将成为与AI交互的关键方式。因此，Gemini直接在音频中进行推理和语音生成，实现高效、实时的沟通。

原生音频对话与Gemini 2.5 Flash预览版功能：

自然对话：提供高质量语音交互，具备更恰当的表现力和韵律（节奏模式），并具有极低延迟，可实现流畅对话。
风格控制：使用自然语言提示，可以调整对话中的表达方式，引导其采用特定口音、产生一系列语调和表情，甚至能实现耳语。
工具集成：Gemini 2.5能在对话中使用工具和函数调用。这使其能够整合来自像某中心搜索等来源的实时信息，或使用开发者自定义的工具，使对话更加实用。
对话上下文感知（主动音频）：系统经过训练，能够识别并忽略背景语音、环境对话和其他无关音频，在适当时候做出回应。本质上，它理解何时不该说话。
音视频理解：凭借对音频和视频流的原生支持，Gemini 2.5可以与你讨论它在视频流或屏幕共享中看到的内容。
多语言性：可使用超过24种支持的语言进行对话，甚至可以在同一句话中轻松混合多种语言。
情感对话：Gemini 2.5能够响应用户的语调，识别到相同词语以不同方式说出可能导致完全不同的对话。
高级思维对话：Gemini的推理能力可以增强其对话表现，从而在所有功能上带来整体性能提升。这使得交互更加连贯和智能，特别是在复杂的推理任务上。

可控文本转语音 (TTS)

文本转语音技术正在快速发展。借助最新模型，我们正超越单纯的自然度，实现对生成音频前所未有的控制。现在，你可以生成从简短片段到长篇叙述的任何内容，精确地规定风格、语调、情感表达和表演方式——所有这些都可以通过自然语言提示来引导。

其他控制功能与能力包括：

动态表演：这些模型可以为从诗歌到新闻报道再到引人入胜的故事讲述等各种内容带来富有表现力的朗读。它们还可以应要求以特定的情感进行表演并产生特定口音。
增强的语速和发音控制：控制语速，并确保更高的发音准确性，包括特定词汇。
多说话人对话生成：该模型可以从文本输入生成双人“NotebookLM风格”的音频概述，通过对话使内容更具吸引力。
多语言性：利用Gemini 2.5轻松创建多语言音频内容，提供对超过24种语言的相同支持。

对于可控语音生成 (TTS)，对于复杂的提示任务，可选择Gemini 2.5 Pro预览版以获得顶尖质量；对于日常成本敏感型应用，可选择Gemini 2.5 Flash预览版。这使得开发者能够动态为公告、故事、播客、视频游戏等创建音频。

安全性与责任

我们在这些原生音频功能的开发过程每个阶段都主动评估了潜在风险，并运用所学知识制定缓解策略。我们通过严格的内部和外部安全评估（包括全面的红队演练以确保负责任部署）来验证这些措施。此外，模型的所有音频输出都嵌入了我们的水印技术SynthID，以确保透明度，使AI生成的音频可被识别。

面向开发者的原生音频能力

我们正在为Gemini 2.5模型引入原生音频输出，通过Gemini API在某机构AI Studio或某机构平台，为开发者提供构建更丰富、更具交互性应用的新能力。

开发者可以开始在Google AI Studio的流式标签页中，使用Gemini 2.5 Flash预览版尝试原生音频对话。可控语音生成 (TTS) 已在预览阶段提供给Gemini 2.5 Pro和Flash版本，可通过在Google AI Studio的生成媒体标签页中选择语音生成功能来使用。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

公众号二维码

公众号二维码

Gemini 2.5原生音频技术与多模态能力解析

Gemini 2.5的原生音频能力

实时音频对话

可控文本转语音 (TTS)

安全性与责任

面向开发者的原生音频能力