一家专注于智能语音交互和 AI 数据服务的人工智能公司,成立于 2016 年 2 月,总部位于北京,并在深圳、杭州、长春等地设立分公司。
主要产品和服务包括:
- 语音识别:
- 一句话识别:对时长较短(60 秒以内)的语音进行实时转写识别。
- 长语音识别:对不限时长的语音输入实时转写,可自动断句和添加标点符号。
- 录音文件识别:对用户录制的语音文件非实时转写处理。
- 自学习工具(HOT):通过上传专有领域或行业积累的文本数据,生成自学习个性化模型和热词模型,提高专有领域场景下的语音识别准确率。热词保存秒级生效,个性化模型最快 5 分钟可训练完成。
- 语音合成:
- 在线合成(HOT):合成高音质、饱满的音色,提供多种音色选择。
- 离线合成:无需联网,在设备端将文字转换为自然、饱满的声音。
- 声音复刻:用少量用户声音快速打造个人定制音色,降低成本。
- 定制音库:专业团队提供一站式声音定制服务。
- 合成系统评测:为多个语种和方言提供文本到语音(TTS)的合成系统评测服务。
- 语音拓展:
- 声音转换:将原说话人声音转换为目标说话人并保留风格特色,离线声音转换无需联网也可实现。
- 歌唱合成:提供多种音色,可合成任意歌曲。
- 声纹识别(公测免费):基于强大算法引擎,通过声音识别说话人身份。
- 声音理解(NEW):通过声音分析发音人性别和年龄特征,进行更精准的信息匹配。
- 开放平台:一站式智能语音服务平台,提供 API/SDK 等服务对接说明,支持通过简单易用的 SDK 和 API 接入,实现语音技术方案支持,包括语音合成、语音识别、声音复刻、声音转换、声纹识别等技术能力,满足更多合作伙伴的多样化语音定制需求。
- AI 数据服务:
- 数据产品:语音合成、语音识别拥有商业化系统和丰富多样的数据,满足不同客户需求;计算机视觉有丰富的图像库和数据库;自然语言处理(NLP)可用于搭建内容搜索、推荐、舆情识别及分析、文本结构化、对话机器人等智能产品。
- 数据服务:支持多场景、多渠道、多类型数据定制化采集和高精度、高质量、高交付、高准确率的数据标注服务。
- 工具平台:标贝易采是集语音、图像、视频采集为一体的智能采集工具,提供采检验全栈服务;3D 点云标注平台支持 4D BEV、3D 立体框、3D 车道线、2/3D 融合标注工具及 AI 预处理;2D 图像标注平台有常见标注工具 10 多种,支持上亿像素作业,AI 辅助标注提高生产效率;语音合成标注平台支持算法辅助音频转写,涉及文字、拼音、韵律、词性等多环节标注;语音识别标注平台支持算法辅助切音和转写,具备灵活的项目协同管理。
- 场景解决方案:
- 智能客服:实现语音导航、质检、智能外呼等场景的解决方案,支持全场景定制,可定制方言模型和特定领域个性化模型,提供多种参数信息满足场景化交互设定需求,还支持方言和小语种音色定制、tts 音色定制能力平台私有化部署等。
- 虚拟员工:提供声形并茂的交互体验。
- 虚拟主播:一站式虚拟主播视频生产和编辑平台。
- 智能会议系统:适用于办公场景。
- 标贝悦读:面向个人用户的 AI 文字转语音,效果逼真,支持可视化人工纠错。
其语音识别技术在安静环境下通用领域中文普通话识别率达 97% 以上,英文识别率超过 95%,适应市场需求,全新上线了时间戳、语速、音量及置信度等功能。语音合成技术支持数理化公式等复杂数字符号的自然朗读,覆盖从小学到初中 12 年教科书中涉及到的数学、物理、化学公式,还可根据客户具体需求定制高中及其他复杂数据符号的科目。
[外网]个强大的开源生态系统,用于基于人工智能的语音克隆