首页 > 快讯 > Hume AI隆重推出EVI 3：能感知你情感的语音智能助手，速度超越GPT-4o！

Hume AI隆重推出EVI 3：能感知你情感的语音智能助手，速度超越GPT-4o！

发布时间：2025-06-03 10:26:20 | 责任编辑：张毅 | 浏览量：382 次

近日，Hume AI正式发布了其第三代语音交互模型EVI3，这一全新语音AI以其卓越的情感理解能力和个性化交互体验引发业界广泛关注。EVI3不仅能精准识别用户语音中的情绪，还能根据用户喜好生成特定风格的声音和个性，标志着语音AI在情感交互和自然沟通领域的重大突破。以下，小编为您带来关于EVI3的最新资讯和深度解析。
体验地址：https://demo.hume.ai/
EVI3:情感智能与语音交互的完美融合
EVI3是Hume AI基于多模态数据集研发的第三代语音语言模型，集语音转录、推理和语音合成于一体。相较于前代模型，EVI3在情感理解、语音表达的自然度和个性化定制方面实现了质的飞跃。据官方介绍，该模型能够通过用户输入的简单文本提示，在不到一秒的时间内生成全新的声音和人格设定，支持超过30种复杂的语音风格，赋予AI独特的“性格”或“情绪”。
例如，用户可以通过描述生成“老派喜剧演员”或“睿智巫师”等多样化角色声音，EVI3不仅能精准模仿指定风格，还能根据对话情境动态调整语气和表达方式。这种高度个性化的交互体验，让EVI3在客户服务、虚拟助手、内容创作等场景中展现出巨大潜力。
超低延迟与智能响应:技术性能全面领先
EVI3的推理延迟低至300毫秒，响应速度显著优于OpenAI的GPT-4o，接近新兴技术Sesame，并远超Google的Gemini。在包含1，720名参与者的盲测中，EVI3在情感表达、自然度、语音质量、响应速度、打断处理等七个维度上均超越了GPT-4o，展现出无与伦比的性能优势。
更令人瞩目的是，EVI3能够在对话中实时进行搜索、推理和智能回答。例如，用户在与AI交谈时，EVI3可以一边“倾听”用户语音，一边调用外部工具获取信息，并在对话中无缝融入答案，极大提升了交互的流畅性和实用性。这种端到端的语音处理能力，使得EVI3成为当前语音AI领域的标杆。
情感识别:让AI更懂人类
EVI3的另一大亮点是其强大的情感识别能力。通过分析用户语音的音调、节奏和音色，EVI3能够精准捕捉用户的情绪状态，并据此调整自身的回应语气，营造出更自然、共情的人机交互体验。相比传统语音助手，EVI3在情感表达上的细腻程度更胜一筹，能够模拟人类对话中的停顿、语气变化甚至“umm”等自然口语习惯。
Hume AI表示，EVI3通过强化学习技术对音高、语速和情感风格进行了优化，训练数据涵盖了超过10万个语音样本。这种独特的多模态训练方法，使得EVI3能够从海量数据中提取人类语音的细微特征，从而生成更真实、更具感染力的语音表达。
多场景应用:从客服到内容创作的无限可能
EVI3现已通过Hume AI的iOS应用和在线演示平台向用户开放体验，API接口也将在未来几周内推出，供开发者集成到各类应用中。无论是用于客户服务、健康教练、沉浸式故事叙述，还是虚拟伴侣，EVI3都能提供高度个性化和情感化的交互体验。
例如，在客户服务场景中，EVI3能够根据用户的情绪状态调整语气，提供更贴心的回应;在内容创作领域，创作者可以利用EVI3生成定制化的有声书或游戏角色配音，极大地丰富了创作可能性。Hume AI还计划进一步优化EVI3的多语言能力，未来将更熟练地支持法语、德语、意大利语和西班牙语等语言，拓展全球市场。
Hume AI的愿景:以情感驱动AI未来
Hume AI由前DeepMind研究员Alan Cowen于2021年创立，致力于打造以人类情感和福祉为核心的AI技术。EVI3的发布是Hume AI实现其愿景的重要一步。官方表示，到2025年底，Hume AI的目标是打造一个完全个性化的语音AI体验，让语音交互成为人与AI沟通的主要方式。
相较于OpenAI和Anthropic等巨头专注于提升模型的通用智能，Hume AI更注重语音AI的真实感和情感共鸣。EVI3通过自然语言定制工具，让用户无需复杂的技术操作即可创建专属AI声音，这种用户友好的设计有望推动语音AI的普及和应用。
EVI3的发布无疑为语音AI领域注入了新的活力。其在情感识别、低延迟响应和个性化定制方面的突破，不仅挑战了现有语音AI模型的性能极限，也为未来的AI交互方式指明了方向。小编认为，EVI3的出现标志着语音AI从机械化的语音助手向真正“懂你”的智能伙伴迈出了关键一步。

Hume AI于2025年5月29日发布了第三代语音交互模型EVI 3，以下是关于EVI 3的相关介绍：

核心特点

情感理解与表达：EVI 3能够精准识别用户语音中的情绪，如钦佩、讽刺等53种情绪，并通过语调、音高变化实时调整回应，其情绪识别准确率达到89%，远超传统模型的62%。
高度个性化：用户可通过简单文本提示创建任何声音和个性，EVI 3支持超过10万种自定义声音，并能根据对话情境动态调整语气和表达方式。
低延迟响应：EVI 3的推理延迟低至300毫秒，在16kHz采样率下延迟控制在80ms以内，显著优于OpenAI的GPT-4o。
多模态交互：支持同时处理文本和语音输入，生成自然、富有表现力的语音和语言响应，实现语音和文本的无缝结合。

技术优势

语音到语音直连架构：摒弃传统TTS模型依赖文本中间态的转换方式，实现输入语音特征到输出语音信号的端到端处理。
强化学习优化：通过强化学习技术对音高、语速和情感风格进行了优化，训练数据涵盖了超过10万个语音样本。
流式处理方法：开发了流式处理方法，使EVI 3能够以对话级延迟响应。

应用场景

客户服务：根据用户情绪调整语气，提供更贴心的回应，提升服务质量和用户满意度。
心理医疗：通过情绪数据辅助诊断和干预，为心理咨询提供支持。
教育辅导：模拟对话，辅助语言学习和社交技能提升。
内容创作：生成特定情感和风格的语音内容，用于有声读物等创作。
虚拟助手：集成到各种设备中，提供个性化语音服务。

与GPT-4o的对比

情感理解：EVI 3在情感理解方面表现出色，能够更准确地捕捉用户的情绪，并根据情绪调整语音的表达方式。
表现力：EVI 3能够生成更富有表现力的语音，使得对话更加生动有趣。
自然度：EVI 3在自然度方面具有优势，能够提供更流畅、更自然的语音交互体验。
响应速度：EVI 3的响应速度更快，延迟显著低于GPT-4o。

EVI 3的发布为语音AI领域带来了新的突破，其在情感理解、个性化定制和低延迟响应等方面的优势，使其在多个应用场景中展现出巨大的潜力。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。