首页 > 快讯 > Gemini 2.5版本引入原生音频特性，增强AI交流自然度

Gemini 2.5版本引入原生音频特性，增强AI交流自然度

发布时间：2025-06-05 17:42:13 | 责任编辑：张毅 | 浏览量：435 次

在最近的开发更新中，谷歌更新了 Gemini2.5版本，标志着 AI 音频对话和生成技术的重大进步。Gemini2.5是一个多模态的 AI 系统，能够原生理解和生成文本、图像、音频、视频和代码，提升了用户与 AI 的互动体验。
Gemini2.5的实时音频对话功能使得人机交流变得更加自然。人类的对话往往涉及语调、口音以及非语言的声音（如笑声），这些细节都能通过 Gemini 的音频生成技术得到体现。其低延迟的特点使得交流流畅自然，用户可以通过自然语言调整对话的风格，如选择不同的口音和语气，甚至可以选择耳语的方式进行交流。
人类的对话丰富而细腻，表达的意义不仅依赖于说出的话，还体现在语气、口音及非语言的声音，如笑声。Gemini2.5旨在通过音频实现高效、实时的交流，其音频对话功能包括:
Gemini2.5的文本转语音（TTS）技术迎来了新突破，用户不仅可以生成自然的语音输出，还能对音频进行前所未有的控制。用户可以生成从短语到长篇叙述的内容，精确掌控风格、语调、情感和表现，所有这些均可通过自然语言提示进行调整。
在 Gemini2.5的开发过程中，谷歌对潜在风险进行了全面评估，并采取了相应的缓解策略。所有音频输出均嵌入了名为 SynthID 的水印技术，以确保 AI 生成音频的透明性和可识别性。
Gemini2.5为开发者提供了丰富的原生音频功能，允许他们通过 Google AI Studio 或 Vertex AI 的 Gemini API，构建更具互动性的应用。开发者可以在 Google AI Studio 的流选项卡中试用 Gemini2.5Flash 预览的原生音频对话，或选择可控的文本转语音生成，推动公告、故事、播客及视频游戏等应用的音频创新。

谷歌近期发布的Gemini 2.5版本在AI对话领域取得了重大突破，尤其是原生音频功能的加入，使得AI对话更加自然和富有表现力。

主要功能亮点

自然对话与低延迟：Gemini 2.5能够提供高质量的语音交互，展现出自然的韵律和表现力，同时保持极低的延迟，让对话体验流畅自然。
风格控制：用户可以通过自然语言提示自定义对话的语调、口音和情感表达，甚至可以选择耳语的方式进行交流。
情感对话：该系统能够检测用户声音中的情感并作出适当回应，理解不同语调下情感的差异。
多语言支持：支持超过24种语言，并且可以在同一对话中灵活切换语言。
工具集成：在对话过程中，Gemini 2.5可以调用工具和函数，例如实时获取来自Google搜索的信息，增强对话的实用性。
音视频理解：支持实时音频和视频流，能够与用户讨论视频内容或屏幕共享的信息。

文本转语音技术

Gemini 2.5的文本转语音（TTS）技术也得到了显著提升：

动态表现：可以生动地朗读文本，支持特定情感和口音的演绎，适用于诗歌朗诵、新闻播报及故事讲述。
速度与发音控制：用户可以控制语音的速度，并确保特定词汇的准确发音。
多说话人对话生成：能够生成双人对话音频，使内容更具吸引力。

安全性与透明性

为确保AI生成音频的透明性和可识别性，所有音频输出均嵌入了名为SynthID的水印技术。

开发者支持

Gemini 2.5为开发者提供了丰富的原生音频功能，允许他们通过Google AI Studio或Vertex AI的Gemini API构建更具互动性的应用。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。