首页 > 快讯 > 推出“Glassy”语音，Anthropic Claude应用程序更新升级，语音功能开发稳步向前

推出“Glassy”语音，Anthropic Claude应用程序更新升级，语音功能开发稳步向前

发布时间：2025-04-30 17:10:51 | 责任编辑：张毅 | 浏览量：203 次

Anthropic在其Claude移动应用程序的最新更新中新增了名为“Glassy”的语音选项，进一步推动其语音模式（Voice Mode）的开发进程。据小编了解，“Glassy”作为Claude语音模式的新增声音，以其独特音色引发社交平台热议，被认为是迄今最具吸引力的语音选项之一。相关细节已通过Anthropic官网(anthropic.com)与Hugging Face社区公开。
核心功能:Glassy语音与多模态交互
Claude的语音模式通过引入“Glassy”语音，结合现有功能，为用户提供了更自然、沉浸式的交互体验。小编梳理了其主要亮点:
全新“Glassy”语音:新增“Glassy”语音，音色清脆且富有人性化特征，加入已有“Airy”、“Mellow”和“Buttery”（英式口音）语音选项，提供多样化选择。
双向语音交互:支持用户通过语音输入（最长10分钟）与Claude进行实时对话，AI以语音或文本响应，接近ChatGPT的Advanced Voice Mode。
文件上传与分析:语音模式界面集成上传功能，支持相机、图库或文件（如PDF、图片），用户可直接讨论上传内容，如分析图表或文档。
Google Workspace集成:新增Gmail、Google Calendar和Drive搜索功能（Beta版），允许用户通过语音查询邮件或日程，提升生产力。
隐私与安全:语音输入经端到端加密，音频记录在转录后立即删除，不用于模型训练，Pro与Team计划用户可自定义数据保留策略。
小编注意到，社区测试显示，用户使用“Glassy”语音查询“分析上传的财务报表”，Claude不仅准确解析数据，还以清晰音色总结关键点，交互体验媲美人类助手。
技术架构:多模态模型与语音优化
Claude语音模式的开发依托Anthropic的Claude3.7Sonnet模型，结合语音处理与多模态技术。小编分析，其核心技术包括:
多模态推理:基于Claude3.7Sonnet（可能超200B参数），整合语音、文本与图像处理，支持复杂任务如文档分析与实时对话。
语音合成引擎:可能与ElevenLabs合作，优化“Glassy”等语音的音色、语调与流畅度，确保自然对话体验，参考Gemini Live的语音技术。
语音转录系统:支持最长10分钟的语音输入，自动转录为文本，兼容英语（后续或扩展多语言），转录准确率达98%以上。
MCP支持:兼容Model Context Protocol（MCP），未来可与Qwen-Agent或Simular AI集成，扩展工具调用与跨平台协作能力。
高效推理:利用AWS与GCP云端推理，推荐16GB RAM设备（如iPhone15Pro或M2Mac）以支持流畅语音交互。
小编认为，“Glassy”语音的加入与Google Workspace集成使Claude在生产力场景中更具竞争力，其隐私保护机制则进一步吸引了企业用户，挑战了OpenAI的ChatGPT与Google的Gemini。
应用场景:从个人助手到企业生产力
Claude语音模式的更新为个人与企业用户带来了广泛的应用场景。小编总结了其主要用途:
个人助手:通过“Glassy”语音快速查询信息（如“查找明天的航班”）或生成创意内容(如“用英式口音讲故事”)，提升移动端交互效率。
企业工作流:结合Google Workspace，语音查询邮件或日程（如“查找上周的会议记录”），自动化报告生成，适合销售与行政团队。
教育与研究:分析上传的学术论文或生成教学笔记，语音交互降低输入门槛，助力学生与研究人员。
内容创作:生成播客脚本或社交媒体内容，结合文件上传功能优化创意流程，适配TikTok与Instagram营销。
开发者生态:通过Hugging Face或Anthropic API，开发者可集成语音模式至定制应用，如智能客服或教育平台。
社区案例显示，一位销售经理利用Claude的“Glassy”语音与Drive搜索功能，快速汇总客户资料并生成会议简报，准备时间缩短约50%。小编观察到，Claude语音模式与MiMo-7B的推理能力结合，或可进一步优化复杂任务处理。
上手指南:快速体验Glassy语音
小编了解到，Claude语音模式（含“Glassy”语音）现已通过Claude iOS与Android应用(需iOS18+或Android8.0+)对部分用户开放，免费、Pro(20美元/月)与Team计划用户均可申请测试。用户可按以下步骤上手:
更新Claude应用至最新版本（App Store或Google Play），确保设备支持语音权限;
打开应用，点击提示区域的麦克风图标，选择“Glassy”语音，录制最长10分钟的语音输入;
上传文件（如PDF或图片）或查询Google Workspace数据(如“查找日历中的下周会议”);
调整语音选项（Airy、Mellow、Buttery或Glassy），测试不同音色与交互场景;
开发者可访问Anthropic API文档（console.anthropic.com）或Hugging Face，探索语音模式集成。
社区建议为复杂查询提供清晰语音输入，并测试文件上传功能以优化多模态交互。小编提醒，语音模式目前仅支持英语，需16GB RAM设备以确保流畅体验，建议关注Anthropic官方更新（anthropic.com）获取多语言支持时间表。
社区反响与改进方向
Claude语音模式新增“Glassy”语音后，社区对其音色多样性与交互自然度给予高度评价。开发者称“Glassy为Claude注入了更人性化的对话魅力”，认为其在教育与企业场景中的潜力堪比ChatGPT的语音模式。然而，部分用户反馈语音模式初期仅限英语，限制了全球用户体验，建议加速多语言支持。社区还期待视频交互与更低的硬件需求。Anthropic回应称，多语言支持与视频模式已在开发中，预计2025年底前推出。小编预测，Claude语音模式可能与NIM Operator2.0的微服务框架或F-Lite的图像生成技术整合，构建从语音到多模态生成的闭环生态。
未来展望:语音交互与AGI的桥梁
Claude语音模式的持续开发标志着Anthropic在人机交互与通用人工智能（AGI）领域的深远布局。小编认为，“Glassy”语音与Google Workspace集成的推出，不仅弥补了Claude在语音交互上的短板，还通过多模态能力挑战了OpenAI的ChatGPT与Google的Gemini Live。社区已在探讨将其与Genie2的3D环境生成或Perplexity的WhatsApp集成结合，构建从虚拟助手到沉浸式交互的生态。长期看，Claude语音模式可能推出“语音插件市场”，提供定制化音色与API服务，类似Hugging Face的模型生态。小编期待2025年Claude在多语言支持、视频交互与企业级部署上的突破。

Anthropic 在其 Claude 移动应用程序的最新更新中引入了名为“Glassy”的语音选项，进一步推动了语音模式（Voice Mode）的开发。

核心功能

全新“Glassy”语音：新增的“Glassy”语音音色清脆且富有人性化特征，加入了已有的“Airy”“Mellow”和“Buttery”（英式口音）语音选项，为用户提供了更多样化的选择。
双向语音交互：支持用户通过语音输入（最长10分钟）与 Claude 进行实时对话，AI 可以语音或文本的形式进行响应。
文件上传与分析：语音模式界面集成了上传功能，支持相机、图库或文件（如 PDF、图片）的上传，用户可以就上传的内容进行讨论，例如分析图表或文档。
Google Workspace 集成：新增了 Gmail、Google Calendar 和 Drive 搜索功能（Beta 版），允许用户通过语音查询邮件或日程，提升了生产力。
隐私与安全：语音输入经过端到端加密，音频记录在转录后会立即删除，不会用于模型训练。Pro 与 Team 计划用户还可以自定义数据保留策略。

技术架构

多模态推理：基于 Claude3.7Sonnet 模型（可能超过200B参数），整合语音、文本与图像处理，支持复杂任务，如文档分析与实时对话。
语音合成引擎：可能与 ElevenLabs 合作，优化“Glassy”等语音的音色、语调与流畅度，确保自然对话体验。
语音转录系统：支持最长10分钟的语音输入，自动转录为文本，目前兼容英语（后续可能扩展多语言），转录准确率超过98%。
MCP 支持：兼容 Model Context Protocol（MCP），未来可与 Qwen-Agent 或 Simular AI 集成，扩展工具调用与跨平台协作能力。
高效推理：利用 AWS 与 GCP 云端推理，推荐使用16GB RAM 的设备（如 iPhone 15 Pro 或 M2 Mac）以支持流畅语音交互。

应用场景

个人助手：通过“Glassy”语音快速查询信息（如“查找明天的航班”）或生成创意内容（如“用英式口音讲故事”），提升移动端交互效率。
企业工作流：结合 Google Workspace，语音查询邮件或日程（如“查找上周的会议记录”），自动化报告生成，适合销售与行政团队。
教育与研究：分析上传的学术论文或生成教学笔记，语音交互降低了输入门槛，助力学生与研究人员。
内容创作：生成播客脚本或社交媒体内容，结合文件上传功能优化创意流程，适配 TikTok 与 Instagram 营销。
开发者生态：通过 Hugging Face 或 Anthropic API，开发者可以将语音模式集成到定制应用中，如智能客服或教育平台。

社区反响与改进方向

社区评价：社区对“Glassy”语音的音色多样性与交互自然度给予了高度评价，认为其在教育与企业场景中的潜力巨大。
改进建议：部分用户反馈语音模式目前仅限英语，限制了全球用户体验，建议加速多语言支持。社区还期待视频交互与更低的硬件需求。
官方回应：Anthropic 表示多语言支持与视频模式已在开发中，预计2025年底前推出。

未来展望

Claude 语音模式的持续开发标志着 Anthropic 在人机交互与通用人工智能（AGI）领域的深远布局。其“Glassy”语音与 Google Workspace 集成的推出，不仅弥补了 Claude 在语音交互上的短板，还通过多模态能力挑战了 OpenAI 的 ChatGPT 与 Google 的 Gemini Live。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。