首页 > 快讯 > 豆包推出视频通话新功能：实现实时交流与视觉语义输入的整合

豆包推出视频通话新功能：实现实时交流与视觉语义输入的整合

发布时间：2025-05-24 09:55:54 | 责任编辑：吴昊 | 浏览量：1,943 次

豆包官方正式宣布豆包App推出实时视频通话功能。这一新功能的上线，为用户带来了全新的交互体验。
当用户在豆包App电话界面开启视频画面后，豆包便能依据真实场景与用户展开实时问答互动。其背后的模型具备融合视觉与语言输入的能力，可进行综合的深度思考和创作。
据了解，此次豆包的升级依托于视觉推理模型。借助该模型，用户在生活、工作和学习中遇到问题时，能够随时与豆包进行视频对话，且豆包还支持联网搜索相关问题的答案。
官方详细介绍了用户开启与豆包视频对话的操作流程。用户只需将豆包App更新至最新版本，打开App对话框，选择“打电话”按钮选项，再点击右侧的“视频通话”，即可开启与豆包的视频对话。

豆包App于2025年5月23日上线了实时视频通话功能。以下是该功能的详细介绍：

功能特点

实时互动：用户在豆包App电话界面开启视频画面后，豆包能依据真实场景与用户展开实时问答互动。比如旅行时，用户可打开视频通话询问景点的历史背景、特色内容或路线规划等。
融合视觉与语言输入：其背后的模型具备融合视觉与语言输入的能力，可进行综合的深度思考和创作。根据图像信息，豆包视觉理解模型还能完成诸多复杂的逻辑计算任务，包括解微积分题、分析论文图表、诊断真实代码问题等挑战性任务。
联网搜索：为进一步提升对话的准确性与时效性，豆包视频通话功能还接入了联网搜索能力，实时获取互联网最新信息。

操作方法

用户只需将豆包App更新至最新版本，打开App对话框，选择“打电话”按钮选项，再点击右侧的“视频通话”，即可开启与豆包的视频对话。

技术基础

此次豆包的升级依托于视觉推理模型，该模型基于深度神经网络架构，通过大规模多模态数据训练，具备卓越的内容识别、理解推理和内容描述能力。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。