首页 > 快讯 > 北大研究团队首度全面审查大型语言模型的心理属性，引领AI评估领域新规范

北大研究团队首度全面审查大型语言模型的心理属性，引领AI评估领域新规范

发布时间：2025-05-27 16:19:08 | 责任编辑：吴昊 | 浏览量：325 次

在人工智能迅猛发展的今天，大语言模型（LLM）展现出了超凡的能力，但如何科学评估它们的 “心智” 特征，比如价值观、性格和社交智能，依旧是一个亟待解决的难题。近期，北京大学的宋国杰教授团队发布了一篇全面的综述论文，系统梳理了大语言模型心理测量学的研究进展，为 AI 的评估提供了新视角。
这篇论文名为《大语言模型心理测量学:评估、验证与增强的系统综述》，长达63页，引用了500篇相关文献。随着 LLM 能力的快速迭代，传统的评估方法已显不足。论文指出，当前评估面临多重挑战，包括 LLM 的心智特征超出传统评测范围、模型迭代快使静态基准失效、评估结果容易受微小变化影响等。为此，团队提出了将心理测量学引入 AI 评估的新思路。
心理测量学长期致力于量化复杂心理特质，通过科学设计的测试为教育、医疗和商业决策提供支持。研究者们发现，将其方法论应用于 LLM 的评估，将有助于深入理解和提升 AI 的心智能力。这一方法革新为 AI 评估开启了全新的视角，从而推动了 “LLM 心理测量学” 的交叉领域发展。
论文中提出了三大创新方向:一是采用 “构念导向” 的评估方法，深入挖掘影响模型表现的潜在变量;二是引入心理测量学的严谨方法，提升测试的科学性与可解释性;三是利用项目反应理论，动态校准测试项目难度，使得不同 AI 系统之间的比较更加科学和公平。
此外，研究还探讨了 LLM 表现出的类人心理构念，包括人格特质、能力构念等，强调了这些特质对模型行为的深远影响。通过结构化和非结构化的测试形式，团队为 LLM 的 “心智” 能力评估奠定了方法论基础，为未来 AI 的发展提供了有力的理论支持。
论文地址：https://arxiv.org/pdf/2505.08245

北京大学宋国杰教授团队近期发布了一篇题为《大语言模型心理测量学：评估、验证与增强的系统综述》的论文，首次系统性地评估了大语言模型的心理特征，并推动了AI评估新标准的建立。

研究背景

大语言模型（LLM）在自然语言理解和生成方面表现出色，已广泛应用于多个领域。然而，传统评估方法难以满足其快速迭代的需求，尤其是在评估模型的“心智”特征（如性格、价值观、社交智能等）方面存在明显不足。为此，团队引入心理测量学的理论和方法，提出了“LLM心理测量学”这一交叉领域。

研究内容

心理测量学与LLM基准的差异
- 传统AI基准测试侧重于模型在具体任务上的表现，而心理测量学以“构念”为核心，追求对心理特质的深入理解。
- 研究团队提出了“构念导向”的评估方法，深入挖掘影响模型表现的潜在变量。
评估方法的革新
- 引入心理测量学的严谨方法，提出证据中心基准设计等新范式，提升测试的科学性和可解释性。
- 应用项目反应理论（IRT），动态校准测试项目难度，智能调整权重，使不同AI系统之间的比较更加科学和公平。
测量构念的扩展
- LLM展现出类人的心理构念，包括人格构念（性格、价值观、道德观等）和能力构念（启发式偏差、情绪智能、社交智能等）。研究系统梳理了针对这些心理构念的评估工作。
测量方法的构建
- 测试形式分为结构化（如选择题、量表评分）和非结构化（如开放对话、智能体模拟）。
- 数据来源包括标准心理学量表、人工定制项目和AI生成的合成项目。
- 提示策略涵盖角色扮演、性能增强和提示扰动等。
测量验证
- 强调理论基础、标准化和可重复性，建立严格的验证体系以确保测试的可靠性、效度和公平性。

研究意义

该研究推动了AI评估从“分数导向”向“科学解码”转变，为理解和提升大语言模型的“心智”能力提供了全新视角。通过心理测量学的方法，可以更全面、科学地认识和界定人工智能的能力边界，为AI的安全性、可靠性和人性化发展提供支撑。

未来展望

未来，心理测量学将在特质调控、安全对齐和认知增强等方面继续为LLM的发展提供支持，推动AI迈向更高水平的智能与社会价值。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。