公开源代码TEN VAD和转场检测,TEN Agent增强语音AI即时响应能力
发布时间:2025-07-01 11:45:25 | 责任编辑:吴昊 | 浏览量:10 次
TEN Agent团队近日宣布,其核心模型**TEN Voice Activity Detection (VAD)**和**TEN Turn Detection**正式开源,为构建实时、多模态的语音AI代理提供了强大的技术支持。
这一举措标志着TEN框架在推动语音交互技术民主化与开源协作方面的重大进展。以下是小编整理的最新资讯,深入解析这两大核心模型的功能、优势及对行业的潜在影响。
TEN VAD:低延迟高性能的语音活动检测
TEN VAD是一款专为企业级应用设计的实时语音活动检测器,以低延迟、轻量化和高性能著称。根据官方信息及社交媒体反馈,TEN VAD能够精确到帧级别检测语音活动,显著优于业界常用的WebRTC VAD和Silero VAD。以下是其核心亮点:
- **低计算复杂度**:TEN VAD的库体积小,计算复杂度低,支持跨平台C语言兼容,覆盖Linux x64、Windows、macOS、Android和iOS等多种操作系统,同时提供针对Linux x64的Python绑定和Web端的WASM支持。[](https://huggingface.co/TEN-framework/ten-vad)
- **高精度与低延迟**:相比Silero VAD,TEN VAD在语音到非语音的转换检测中延迟更低,能快速识别短暂停顿,适合实时交互场景。测试显示,其实时因子(RTF)在多种CPU平台上表现优异。[](https://huggingface.co/TEN-framework/ten-vad)
- **最新开源进展**:2025年6月,TEN团队开源了ONNX模型及预处理代码,支持在任何支持ONNX的平台和硬件架构上部署,进一步增强了灵活性。此外,WASM+JS的支持扩展了其在Web端的应用可能性。
社交媒体上,开发者对TEN VAD的开源表示高度认可,认为其性能超越传统VAD模型,为实时语音助手开发提供了强有力的工具。
TEN Turn Detection:智能对话轮次管理
**TEN Turn Detection**是一款专为全双工语音通信设计的智能轮次检测模型,旨在解决人机对话中最具挑战性的问题之一:准确判断用户何时结束发言并进行上下文感知的中断处理。以下是其关键特性:
- **语义分析能力**:基于Qwen2.5-7B的Transformer模型,TEN Turn Detection通过分析对话的语义上下文和语言模式,精准区分用户发言的“完成”、“等待”和“未完成”状态。例如,它能识别“嘿,我想问个问题……”为未完成发言,从而避免不必要的AI打断。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **多语言支持**:目前支持英语和中文,能够准确识别多语言对话中的轮次信号,适用于全球化应用场景。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **优异性能**:在公开测试数据集上,TEN Turn Detection在各项指标上均超越其他开源轮次检测模型,尤其在动态实时对话中表现出色。[](https://huggingface.co/TEN-framework/TEN_Turn_Detection)
- **自然交互体验**:结合TEN VAD,TEN Turn Detection使AI代理能够像人类一样等待合适的发言时机,或在适当的语境下处理用户中断,从而打造更自然的对话体验。[](https://www.agora.io/en/blog/making-voice-ai-agents-more-human-with-ten-vad-and-turn-detection/)
TEN Agent生态:多模态实时AI的基石
TEN Agent是TEN框架的展示项目,整合了TEN VAD、TEN Turn Detection等核心组件,支持语音、视频、文本等多模态实时交互。以下是其在生态中的作用:
- **无缝集成**:TEN VAD与TEN Turn Detection作为TEN框架的插件,开发者可通过简单配置将其融入语音代理开发流程,支持与Deepgram、ElevenLabs等服务的集成。
- **多场景应用**:TEN Agent支持从智能客服、实时翻译到虚拟伴侣等多种用例。例如,结合Google Gemini多模态API,TEN Agent可实现实时视觉和屏幕共享检测,扩展了其在教育、医疗等领域的应用。
- **开源协作**:TEN框架的全部组件(除TEN VAD部分代码外)均已完全开源,鼓励社区开发者贡献代码、修复Bug或提出新功能。TEN团队通过GitHub Issues和Projects提供协作渠道,吸引了广泛的开发者参与
项目:https://github.com/TEN-framework/ten-framework
TEN Agent 开源的 TEN VAD 与 Turn Detection 是声网和 RTE 开发者社区基于声网十余年实时语音深度研究成果与超低延迟技术积累所打造的高性能模型,以下是具体介绍:
TEN VAD
-
功能与优势:
-
高精度语音检测:能精确区分语音和非语音信号,提供高精度的帧级语音活动检测。
-
低延迟处理:快速检测语音活动,显著降低端到端的响应时间,适合实时对话系统。
-
轻量级设计:占用资源少,计算复杂度低,适合在多种硬件平台上运行。
-
多平台支持:支持 Linux、Windows、macOS、Android 和 iOS 等多种操作系统,提供广泛的兼容性。
-
多语言接口:提供 Python 和 C 接口,方便开发者在不同编程环境中使用。
-
灵活配置:支持 16kHz 采样率的音频输入,支持配置不同的跳帧大小,适应不同的应用场景。
-
成本优化:实测可降低62%音频传输数据量,显著节省云端语音识别成本。
-
-
技术原理:
-
深度学习模型:基于深度神经网络学习语音和非语音信号的特征,用大量标注好的音频数据进行训练。
-
特征提取:从音频信号中提取关键特征,如梅尔频谱、能量特征等。
-
实时处理:采用高效的算法和优化的模型结构,确保在实时音频流中快速检测语音活动。
-
自适应阈值:基于调整模型的阈值,适应不同的应用场景和语音特征。
-
优化的架构:在设计上注重计算效率和内存占用。
-
-
开源信息:已在 Hugging Face 和 GitHub 上开源,并配备了人工精标的数据集。
Turn Detection
-
功能与优势:
-
自然对话管理:能准确判断用户何时停止说话,区分“中途停顿”与“说完了”,避免插话打断或回应迟缓。
-
支持全双工语音交互:允许用户和 AI 同时说话,使对话更加自然。
-
多语言支持:支持中英文。
-
高准确率:在中文对话中对用户对话轮次结束的识别准确率高达 98.9%。
-
-
技术原理:通过分析语言模式,判断说话者的状态,从而智能决定 AI 是“说”还是“听”。
-
开源信息:已在 Hugging Face 和 GitHub 上开源。
应用效果
当 TEN VAD 与 TEN Turn Detection 结合使用时,可以打造出更自然、反应更迅速、成本更低的 Voice Agent。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。