全新超拟人交互API于讯飞开放平台正式发布:科大讯飞再创新
发布时间:2025-07-08 09:20:13 | 责任编辑:吴昊 | 浏览量:7 次
2024年8月,科大讯飞正式推出星火极速超拟人交互技术,通过端到端语音建模与多维度情感解耦训练,实现响应速度、情绪共鸣、语音可控表达三大核心突破。该技术可精准识别用户语音中的情感波动,以适配语气实时回应,并支持语速、音色、角色人设的动态调整,标志着语音交互从“功能实现”向“情感连接”的跨越式升级。
目前,超拟人交互API已正式上线讯飞开放平台,开发者可低成本调用技术能力。在游戏领域,NPC能根据玩家情绪动态调整对话策略;教育场景中,AI口语陪练可模拟外教真实反应;文旅行业则涌现出“数字导游”,通过角色扮演与游客深度互动。某景区试点显示,搭载该技术的导游AI使游客停留时长增加40%,二次消费率提升25%。
传统语音交互系统因采用“语音识别-大模型处理-语音合成”的串联架构,导致平均响应时间达3秒以上,且情感传递依赖文本内容,难以捕捉语音中的语气、节奏等副语言信息。星火极速超拟人交互技术采用统一神经网络框架,直接实现语音到语音的端到端建模:语音信号经音频编码器提取特征后,与文本语义表征对齐,再由多模态大模型预测输出表征,最终通过音频解码器生成情绪自然、节奏精准的合成语音。这一创新使交互延迟压缩至0.5秒内,响应模式从“你问我答”升级为“实时对话”。
为实现真正的情绪共鸣,技术团队构建了多维度语音属性解耦表征体系,将内容、情感、语种、音色、韵律等要素分离训练。通过对比学习和掩码预测,系统可精准识别语音中的喜悦、愤怒、焦虑等情绪,并自动调整回应策略。例如,当用户焦急询问路线时,AI会以沉稳语气快速规划路径;当用户分享趣事时,AI则用轻松语调延伸话题。此外,开发者可通过API自定义AI角色人设,使其具备特定价值观、语言风格,甚至模拟名人音色进行互动。
为降低应用门槛,讯飞推出阶梯式定价策略:API调用成本低至0.1元/分钟,企业用户通过认证可获3个月、10小时免费试用额度。对比传统语音交互系统需单独采购语音识别、合成、NLP等模块,星火极速超拟人技术将整体成本降低60%以上。
科大讯飞的超拟人交互API已经正式上线讯飞开放平台。开发者可以通过接入该API,无需从零开始搭建复杂架构,即可实现用户与AI的实时语音互动,构建更加自然和人性化的交互体验。
超拟人交互API的核心优势包括:
-
快速响应与打断:支持极速响应和随时打断,能够更好地模拟人类对话的自然流畅性。
-
情绪感知与情感共鸣:对情绪的可感知度达到85%,能够识别不同情绪并做出符合情境的回复。
-
语音可控表达与人设扮演:支持多种语音风格和人设扮演,使交互更具个性化。
-
多模态交互能力:结合语音、视觉等多模态技术,实现更丰富的交互体验。
此外,科大讯飞还提供了“超拟人”数字人定制服务,开发者可以通过简单的语音录制和照片上传,快速生成具有个性化声音和形象的数字人。这些数字人可以应用于多种场景,如客服、导览、虚拟主持、数字人直播等。
超拟人交互API的上线,为开发者提供了强大的工具,能够快速实现智能化、个性化的交互应用,推动AI技术在更多领域的落地。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。