首页 > 快讯 > 探索大模型的神秘面纱!“思考词汇” 潜藏惊人的信息宝藏

探索大模型的神秘面纱!“思考词汇” 潜藏惊人的信息宝藏

发布时间:2025-07-04 11:39:38 | 责任编辑:吴昊 | 浏览量:29 次

近日,来自中国人民大学、上海人工智能实验室、伦敦大学学院和大连理工大学的研究团队揭示了大模型推理过程中的一个重要发现:当模型在思考时,所使用的 “思考词” 实际上反映了其内部信息量的显著提升。这一研究成果通过信息论的方法,为我们更好地理解人工智能的推理机制提供了新的视角。
论文地址:https://arxiv.org/abs/2506.02867
你或许见过大模型在解答问题时,会输出一些看似人类化的语言,比如 “嗯……”、“让我想想……” 或 “因此……”。这些 “思考词” 是简单的表面装饰,还是代表着模型真正的思考过程?这个问题困扰着许多研究者。如今的研究表明,这些词汇并非仅仅是为了模仿人类,而是关键的 “信息高峰”,显示出模型在特定时刻的思维状态。
研究团队对多种大模型进行追踪观察,测量它们在推理过程中的互信息变化。结果发现,模型在某些时刻的互信息值会急剧上升,形成明显的 “互信息峰值”。这意味着,在这些关键时刻,模型内部包含了指向正确答案的关键信息。这一现象在经过推理强化训练的模型中表现得尤为明显,而非推理模型则显得较为平淡。
更为有趣的是,当研究人员将这些互信息高峰时刻的表征转化为人类可理解的语言时,发现这些时刻正好对应了那些频繁出现的 “思考词”。例如,在进行复杂推理时,模型往往会输出 “让我想想”、“所以我必须……” 等表述。这些 “思考词” 不再是可有可无的点缀,而是模型推理过程中的关键路标,推动着其思考的进展。
基于这一发现,研究者们提出了两种无需额外训练就能提升大模型推理能力的方法。这意味着,未来的 AI 可以在保留现有知识的基础上,通过合理利用这些信息高峰,显著提升其推理性能。这一研究不仅推动了大模型的理论研究,也为实际应用提供了新的思路。

探索大模型的神秘面纱!“思考词汇” 潜藏惊人的信息宝藏

大模型的“思考词”背后确实藏着惊人的信息量,以下为你揭开其秘密:

思考词的作用

  • 引导模型推理:一些特定的思考词可以引导大模型进行更深入的推理。例如“Let's think step by step”,这句思考词能让大语言模型生成回答问题的思维链,从而提取更准确的答案。又如“Think Twice”,通过让模型进行多轮推理,使其在回答问题时更加谨慎,准确率稳步上升,模型表现出更强的稳定性和反思能力。

  • 塑造模型风格:思考词还能塑造大模型的回答风格。比如系统提示词,OpenAI的系统提示词规定了ChatGPT不能讨论政治观点等,从而限制了其在某些话题上的生成能力。而Claude的提示词更“规范化”,要求避免不安全、不道德等内容,使其尽量走“道德正确”的路线。

  • 赋予模型角色:通过思考词可以为大模型设定特定的身份或行为准则,使其在回答问题时更具针对性。比如指示模型“你是一位经验丰富的历史学家,请解释工业革命的意义”,模型就会以历史学家的身份来回答问题。

思考词背后的技术原理

  • 基于Transformer架构:大模型通常采用Transformer架构,该架构通过“注意力机制”理解句子中词与词之间的关系,从而捕捉上下文语义。在处理文本时,模型内部会分为MLP层和注意力层,MLP层对信息进行非线性变换,注意力层则进行信息传递,让模型可以“关注”到上下文中对当前预测特别重要的词语。

  • 思维链与多步推理:思维链技术的核心思想是鼓励模型在给出最终答案之前,先一步一步地阐述其“思考过程”,这有助于模型更好地理解和解决问题。例如Claude在回答“Fact: the capital of the state containing Dallas is ___”时,会先触发与“Dallas”相关的特征,逐步传递到表示“Texas”的特征,再结合到表示“首府”的特征,最后推断出“Austin”。

  • 提示词工程:提示词工程是大模型应用中的重要环节,通过精心设计的提示词,可以引导模型更好地理解任务并生成高质量的输出。例如,通过“分步拆解问题+角色模拟”的引导词设计,可以印证提示工程对模型性能的关键影响。

思考词带来的影响

  • 提升模型性能:使用思考词可以提升大模型的准确率和稳定性,使其在回答问题时更加“像人类”,且逻辑清晰。例如在GPQA-Diamond和LiveCodeBench等任务中,DeepSeek-R1和QwQ-32B等主流模型在使用“Think Twice”方法后,准确率均有所提升。

  • 改变模型表达:思考词会影响模型的语言风格。在进行多轮推理后,模型使用不确定词的频率明显减少,即使在多轮中仍答错,模型的表达也趋向更加简洁、自信。

  • 拓展模型能力:思考词和提示词工程的结合,意味着我们正在从仅仅“生成文本”的工具,转向创造“可配置的认知代理”,为设计面向特定领域的AI辅助工具开辟了新的可能性。

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

发表回复