首页 > 快讯 > 推出“Glassy”语音,Anthropic Claude应用程序更新升级,语音功能开发稳步向前

推出“Glassy”语音,Anthropic Claude应用程序更新升级,语音功能开发稳步向前

发布时间:2025-04-30 17:10:51 | 责任编辑:张毅 | 浏览量:7 次

Anthropic在其Claude移动应用程序的最新更新中新增了名为“Glassy”的语音选项,进一步推动其语音模式(Voice Mode)的开发进程。据小编了解,“Glassy”作为Claude语音模式的新增声音,以其独特音色引发社交平台热议,被认为是迄今最具吸引力的语音选项之一。相关细节已通过Anthropic官网(anthropic.com)与Hugging Face社区公开。
核心功能:Glassy语音与多模态交互
Claude的语音模式通过引入“Glassy”语音,结合现有功能,为用户提供了更自然、沉浸式的交互体验。小编梳理了其主要亮点:
全新“Glassy”语音:新增“Glassy”语音,音色清脆且富有人性化特征,加入已有“Airy”、“Mellow”和“Buttery”(英式口音)语音选项,提供多样化选择。
双向语音交互:支持用户通过语音输入(最长10分钟)与Claude进行实时对话,AI以语音或文本响应,接近ChatGPT的Advanced Voice Mode。
文件上传与分析:语音模式界面集成上传功能,支持相机、图库或文件(如PDF、图片),用户可直接讨论上传内容,如分析图表或文档。
Google Workspace集成:新增Gmail、Google Calendar和Drive搜索功能(Beta版),允许用户通过语音查询邮件或日程,提升生产力。
隐私与安全:语音输入经端到端加密,音频记录在转录后立即删除,不用于模型训练,Pro与Team计划用户可自定义数据保留策略。
小编注意到,社区测试显示,用户使用“Glassy”语音查询“分析上传的财务报表”,Claude不仅准确解析数据,还以清晰音色总结关键点,交互体验媲美人类助手。
技术架构:多模态模型与语音优化
Claude语音模式的开发依托Anthropic的Claude3.7Sonnet模型,结合语音处理与多模态技术。小编分析,其核心技术包括:
多模态推理:基于Claude3.7Sonnet(可能超200B参数),整合语音、文本与图像处理,支持复杂任务如文档分析与实时对话。
语音合成引擎:可能与ElevenLabs合作,优化“Glassy”等语音的音色、语调与流畅度,确保自然对话体验,参考Gemini Live的语音技术。
语音转录系统:支持最长10分钟的语音输入,自动转录为文本,兼容英语(后续或扩展多语言),转录准确率达98%以上。
MCP支持:兼容Model Context Protocol(MCP),未来可与Qwen-Agent或Simular AI集成,扩展工具调用与跨平台协作能力。
高效推理:利用AWS与GCP云端推理,推荐16GB RAM设备(如iPhone15Pro或M2Mac)以支持流畅语音交互。
小编认为,“Glassy”语音的加入与Google Workspace集成使Claude在生产力场景中更具竞争力,其隐私保护机制则进一步吸引了企业用户,挑战了OpenAI的ChatGPT与Google的Gemini。
应用场景:从个人助手到企业生产力
Claude语音模式的更新为个人与企业用户带来了广泛的应用场景。小编总结了其主要用途:
个人助手:通过“Glassy”语音快速查询信息(如“查找明天的航班”)或生成创意内容(如“用英式口音讲故事”),提升移动端交互效率。
企业工作流:结合Google Workspace,语音查询邮件或日程(如“查找上周的会议记录”),自动化报告生成,适合销售与行政团队。
教育与研究:分析上传的学术论文或生成教学笔记,语音交互降低输入门槛,助力学生与研究人员。
内容创作:生成播客脚本或社交媒体内容,结合文件上传功能优化创意流程,适配TikTok与Instagram营销。
开发者生态:通过Hugging Face或Anthropic API,开发者可集成语音模式至定制应用,如智能客服或教育平台。
社区案例显示,一位销售经理利用Claude的“Glassy”语音与Drive搜索功能,快速汇总客户资料并生成会议简报,准备时间缩短约50%。小编观察到,Claude语音模式与MiMo-7B的推理能力结合,或可进一步优化复杂任务处理。
上手指南:快速体验Glassy语音
小编了解到,Claude语音模式(含“Glassy”语音)现已通过Claude iOS与Android应用(需iOS18+或Android8.0+)对部分用户开放,免费、Pro(20美元/月)与Team计划用户均可申请测试。用户可按以下步骤上手:
更新Claude应用至最新版本(App Store或Google Play),确保设备支持语音权限;
打开应用,点击提示区域的麦克风图标,选择“Glassy”语音,录制最长10分钟的语音输入;
上传文件(如PDF或图片)或查询Google Workspace数据(如“查找日历中的下周会议”);
调整语音选项(Airy、Mellow、Buttery或Glassy),测试不同音色与交互场景;
开发者可访问Anthropic API文档(console.anthropic.com)或Hugging Face,探索语音模式集成。
社区建议为复杂查询提供清晰语音输入,并测试文件上传功能以优化多模态交互。小编提醒,语音模式目前仅支持英语,需16GB RAM设备以确保流畅体验,建议关注Anthropic官方更新(anthropic.com)获取多语言支持时间表。
社区反响与改进方向
Claude语音模式新增“Glassy”语音后,社区对其音色多样性与交互自然度给予高度评价。开发者称“Glassy为Claude注入了更人性化的对话魅力”,认为其在教育与企业场景中的潜力堪比ChatGPT的语音模式。 然而,部分用户反馈语音模式初期仅限英语,限制了全球用户体验,建议加速多语言支持。社区还期待视频交互与更低的硬件需求。Anthropic回应称,多语言支持与视频模式已在开发中,预计2025年底前推出。 小编预测,Claude语音模式可能与NIM Operator2.0的微服务框架或F-Lite的图像生成技术整合,构建从语音到多模态生成的闭环生态。
未来展望:语音交互与AGI的桥梁
Claude语音模式的持续开发标志着Anthropic在人机交互与通用人工智能(AGI)领域的深远布局。小编认为,“Glassy”语音与Google Workspace集成的推出,不仅弥补了Claude在语音交互上的短板,还通过多模态能力挑战了OpenAI的ChatGPT与Google的Gemini Live。 社区已在探讨将其与Genie2的3D环境生成或Perplexity的WhatsApp集成结合,构建从虚拟助手到沉浸式交互的生态。长期看,Claude语音模式可能推出“语音插件市场”,提供定制化音色与API服务,类似Hugging Face的模型生态。小编期待2025年Claude在多语言支持、视频交互与企业级部署上的突破。

推出“Glassy”语音,Anthropic Claude应用程序更新升级,语音功能开发稳步向前

Anthropic 在其 Claude 移动应用程序的最新更新中引入了名为“Glassy”的语音选项,进一步推动了语音模式(Voice Mode)的开发。

核心功能

  • 全新“Glassy”语音:新增的“Glassy”语音音色清脆且富有人性化特征,加入了已有的“Airy”“Mellow”和“Buttery”(英式口音)语音选项,为用户提供了更多样化的选择。

  • 双向语音交互:支持用户通过语音输入(最长10分钟)与 Claude 进行实时对话,AI 可以语音或文本的形式进行响应。

  • 文件上传与分析:语音模式界面集成了上传功能,支持相机、图库或文件(如 PDF、图片)的上传,用户可以就上传的内容进行讨论,例如分析图表或文档。

  • Google Workspace 集成:新增了 Gmail、Google Calendar 和 Drive 搜索功能(Beta 版),允许用户通过语音查询邮件或日程,提升了生产力。

  • 隐私与安全:语音输入经过端到端加密,音频记录在转录后会立即删除,不会用于模型训练。Pro 与 Team 计划用户还可以自定义数据保留策略。

技术架构

  • 多模态推理:基于 Claude3.7Sonnet 模型(可能超过200B参数),整合语音、文本与图像处理,支持复杂任务,如文档分析与实时对话。

  • 语音合成引擎:可能与 ElevenLabs 合作,优化“Glassy”等语音的音色、语调与流畅度,确保自然对话体验。

  • 语音转录系统:支持最长10分钟的语音输入,自动转录为文本,目前兼容英语(后续可能扩展多语言),转录准确率超过98%。

  • MCP 支持:兼容 Model Context Protocol(MCP),未来可与 Qwen-Agent 或 Simular AI 集成,扩展工具调用与跨平台协作能力。

  • 高效推理:利用 AWS 与 GCP 云端推理,推荐使用16GB RAM 的设备(如 iPhone 15 Pro 或 M2 Mac)以支持流畅语音交互。

应用场景

  • 个人助手:通过“Glassy”语音快速查询信息(如“查找明天的航班”)或生成创意内容(如“用英式口音讲故事”),提升移动端交互效率。

  • 企业工作流:结合 Google Workspace,语音查询邮件或日程(如“查找上周的会议记录”),自动化报告生成,适合销售与行政团队。

  • 教育与研究:分析上传的学术论文或生成教学笔记,语音交互降低了输入门槛,助力学生与研究人员。

  • 内容创作:生成播客脚本或社交媒体内容,结合文件上传功能优化创意流程,适配 TikTok 与 Instagram 营销。

  • 开发者生态:通过 Hugging Face 或 Anthropic API,开发者可以将语音模式集成到定制应用中,如智能客服或教育平台。

社区反响与改进方向

  • 社区评价:社区对“Glassy”语音的音色多样性与交互自然度给予了高度评价,认为其在教育与企业场景中的潜力巨大。

  • 改进建议:部分用户反馈语音模式目前仅限英语,限制了全球用户体验,建议加速多语言支持。社区还期待视频交互与更低的硬件需求。

  • 官方回应:Anthropic 表示多语言支持与视频模式已在开发中,预计2025年底前推出。

未来展望

Claude 语音模式的持续开发标志着 Anthropic 在人机交互与通用人工智能(AGI)领域的深远布局。其“Glassy”语音与 Google Workspace 集成的推出,不仅弥补了 Claude 在语音交互上的短板,还通过多模态能力挑战了 OpenAI 的 ChatGPT 与 Google 的 Gemini Live。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复