腾讯 AI Lab 推出全新框架开源,推动深度学习智能体发展
发布时间:2025-08-07 12:16:14 | 责任编辑:吴昊 | 浏览量:8 次
随着大语言模型(LLM)和视觉 - 语言模型(VLM)的迅速发展,智能体在知识发现和问题解决的方式上正在经历革命性的变化。然而,许多现有的开源智能体框架过于依赖昂贵的付费工具,这在很大程度上限制了它们的可复现性和普适性。为此,腾讯 AI Lab 推出了全新开源的智能体框架 ——Cognitive Kernel-Pro,旨在最大限度地降低外部依赖,使更多研究人员和开发者能够轻松参与智能体的开发和训练。
Cognitive Kernel-Pro 采用了多模块、层次化的设计,主要由主智能体和多个子智能体组成。主智能体负责任务分解和信息整合,而子智能体则专注于特定任务,如网页浏览和文件处理。这种模块化结构确保了各部分的独立性和扩展性。
为了提升复杂任务的处理效率,Cognitive Kernel-Pro 引入了 “进度状态” 机制,智能体可以记录已完成的步骤和待办任务。此外,框架通过简单的文本接口实现主智能体和子智能体之间的高效通信,便于协作与调试。同时,反思和投票机制的引入,进一步优化了智能体的任务完成质量,特别是在网页浏览等高随机性的任务中。
在性能方面,Cognitive Kernel-Pro 在 GAIA 基准测试中表现出色,超越了其他开源框架 SmolAgents,接近那些依赖付费工具的智能体。这一成果得益于其创新的训练方法,涵盖网页导航、文件处理和推理等多个领域。
除了强大的框架设计,腾讯 AI Lab 还提供了 Agent Foundation Model 的训练配方,进一步推动了社区的研究和发展。相关代码和技术报告已在 GitHub 上公开,供大家共同探索与利用。
项目地址:https://github.com/Tencent/CognitiveKernel-Pro
腾讯 AI Lab 于 2025 年 8 月 6 日正式开源了 Cognitive Kernel-Pro,这是一款全开源、多模块、层次化的智能体框架,专为深度研究智能体(Deep Research Agents)开发与训练而设计,旨在最大限度降低外部依赖,实现真正的可复现性和普适性。
核心特点
-
全开源与多模块架构:Cognitive Kernel-Pro 采用两层多模块设计,包括主智能体(负责任务分解和信息整合)和多个子智能体(如网页导航智能体、文件处理智能体),每个模块可独立工作并无缝协作。
-
降低外部依赖:相较于依赖付费工具(如 Jina Reader、FireCrawl)的现有框架,Cognitive Kernel-Pro 强调大语言模型(LLM)和视觉-语言模型(VLM)的内在能力,支持灵活切换免费 API(如 DuckDuckGo),实现真正的全开源。
-
卓越性能:在 GAIA 基准全集上,Cognitive Kernel-Pro 超越开源免费框架 SmolAgents,性能逼近依赖付费工具的智能体;在 GAIA-text 基准上,训练的 8B 模型超越了 WebDancer 和 WebSailor-7B。
训练创新
-
高质量训练数据构建:通过构造可验证的查询-答案对、基于提示的拒绝采样等方法,提升训练数据的质量和相关性。
-
多样化数据增强:利用 Persona Hub 生成多样化合成查询,结合跨系统验证,确保训练数据的多样性和鲁棒性。
开源与社区支持
-
开源代码与论文:相关技术报告及代码已全面开源于 GitHub(CognitiveKernel-Pro),论文《Cognitive Kernel-Pro: A Fully Open-Source Framework for Deep Research Agents》登上 HuggingFace 热榜第一。
-
推动行业民主化:该框架降低了开发门槛,使学术研究、初创公司和个人开发者无需依赖昂贵工具即可开发强大的 AI 智能体,推动行业创新。
实际应用与未来展望
Cognitive Kernel-Pro 可应用于政府政策分析、学术研究辅助、企业决策支持等领域,未来工作将聚焦于将反思能力蒸馏到同一 Agent 基座模型中,进一步优化性能。
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。