首页 > 快讯 > 豆包App增强视觉解析，深度思考图片分析新功能

豆包App增强视觉解析，深度思考图片分析新功能

发布时间：2025-07-29 14:35:20 | 责任编辑：张毅 | 浏览量：443 次

豆包App在视觉推理领域迎来重大升级，其图片分析功能现已支持深度思考模式，为用户带来前所未有的智能体验。用户只需在深度思考模式下拍摄或上传一张图片，豆包便能迅速对图片进行放大、裁剪等精细处理，并支持图片搜索功能，实现边想边搜，从而进一步提升搜索结果的准确性。
在图片分析过程中，豆包展现出强大的信息处理能力。它能够根据图片中的细节信息，对比历史档案，检索出相似图片，并梳理出图片的演变脉络。通过这一系列操作，豆包能够最终确定图片的年代范围，为用户提供更为精准的信息。
此外，豆包还能对图片进行深入分析，根据地形景观、建筑风格以及窗户细节等特征，对照地理和人文特征进行综合判断。经过这一系列复杂的分析过程，豆包能够准确确定图片所展示的具体方位，甚至最终确定城市名称，为用户提供更加全面、准确的图片解读服务。

豆包 App 的视觉推理能力近期完成重要升级：

视觉理解模型升级：豆包 1.5·视觉深度思考模型（Doubao-1.5-thinking-vision-pro）发布，具备强大的视觉理解和深度思考能力，支持动态帧率采样、视频时序定位，可精准定位视频中与文本描述对应的片段，并新增视频深度思考能力，通过多模态数据学习和强化学习，大幅提升视觉推理能力。
应用场景丰富：该模型可辅助用户分析地貌特征、点餐决策、项目管理流程图绘制，甚至能处理复杂图形推理题、协助医学影像分析（如 X 光、MRI）并生成诊断报告。
GUI Agent 能力：新增 GUI Agent 功能，可在 PC 端、手机端完成复杂交互任务（如对新开发 App 功能进行自动化检测），已应用于字节跳动多款 App 的开发测试中。

此外，豆包文生图模型升级至 3.0 版本，支持 2K 高清图片生成，文字排版和图像生成能力显著增强，已跻身全球文生图领域第一梯队。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：谷歌Chrome引入AI助手评价系统，旨在增强美国消费者的购物体验

下一篇： Unitree发布经济型人形机器人R1，标价仅5900美元

豆包App增强视觉解析，深度思考图片分析新功能

最新Ai信息

最新Ai工具

热门AI推荐