首页 > 快讯 > 长时间AI对话易”迷失”:微软研究显示语言模型准确性骤减39%

长时间AI对话易”迷失”:微软研究显示语言模型准确性骤减39%

发布时间：2025-05-29 11:13:11 | 责任编辑：张毅 | 浏览量：183 次

微软和Salesforce联合研究发现，即使是最先进的AI语言模型在长时间对话中也会出现严重的可靠性问题。当用户逐步表达需求时，系统性能平均下降39%，这一发现对AI助手的实际应用提出了重要警示。
研究团队创建了名为"分片"的测试方法，模拟用户在实际对话中逐步明确需求的过程。与传统的一次性提供完整信息不同，这种方法将任务分解为多个步骤，更贴近真实使用场景。
测试结果令人震惊:AI模型的准确率从约90%暴跌至仅51%。从小型开源模型Llama-3.1-8B到大型商业系统GPT-4o，所有15个受测模型均出现这种急剧下降。
每个实验涉及90到120条指令，这些指令被分解为来自高质量数据集的较小子任务。
即便是研究中的顶级模型——Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1——在多轮对话中的表现也比单轮对话差30%至40%。更令人担忧的是，这些模型的一致性大幅降低，同一任务的最佳和最差表现差异可达50个百分点。
研究识别出AI模型在多轮对话中的四个核心问题:
为提高可靠性，研究团队尝试了多种技术改进，包括降低模型温度设定以减少随机性，以及让AI重复用户指令。然而，这些优化措施均未产生显著效果。
研究发现，改变每步提供的细节程度同样无济于事。唯一可靠的解决方案是在对话开始时就提供所有必要信息。
大型语言模型经常在多步骤、未明确指定的对话中“迷失”，导致性能显著下降。
性能下降呈现两个层面:模型基本能力仅下降约16%，但不可靠性却飙升112%。在单轮任务中，能力更强的模型通常更可靠，但在多轮对话中，所有模型的可靠性都同样糟糕，与其基线技能水平无关。
基于研究结果，专家提出两项实用建议:
对用户: 当对话偏离主题时，与其试图修正，不如重新开始新对话。在对话结束时要求AI总结所有需求，并以此作为新对话的起点。
对开发者: 应更加重视多轮对话的可靠性开发。未来模型需要在指令不完整的情况下保持稳定表现，而非依赖特殊提示技巧或参数调整。
这项研究凸显了AI助手在现实应用中面临的重大挑战。由于用户通常通过渐进式对话表达需求，可靠性问题可能严重影响用户体验和AI系统的实际价值。
研究人员强调，可靠性与原始性能同等重要，特别是对于需要处理复杂、多步骤交互的现实世界AI助手而言。这一发现为AI行业指明了重要的改进方向。

微软和Salesforce联合研究发现，即使是最先进的AI语言模型在长时间对话中也会出现严重的可靠性问题。当用户逐步表达需求时，系统性能平均下降39%，这一发现对AI助手的实际应用提出了重要警示。

研究方法与结果

研究团队创建了名为“分片”的测试方法，模拟用户在实际对话中逐步明确需求的过程。与传统的一次性提供完整信息不同，这种方法将任务分解为多个步骤，更贴近真实使用场景。测试结果显示，AI模型的准确率从约90%暴跌至仅51%，所有15个受测模型均出现这种急剧下降。

顶级模型同样受影响

即使是研究中的顶级模型，如Claude3.7Sonnet、Gemini2.5Pro和GPT-4.1，在多轮对话中的表现也比单轮对话差30%至40%。这些模型的一致性大幅降低，同一任务的最佳和最差表现差异可达50个百分点。

核心问题

研究识别出AI模型在多轮对话中的四个核心问题：

过早结论：在掌握全部必要信息前匆忙做出判断。
过度依赖历史：过分相信自己此前的回答，即使其中存在错误。
信息忽略：忽视对话过程中的重要信息。
过度详述：提供过于详细的回答，导致对信息缺口的错误假设。

技术优化收效甚微

为提高可靠性，研究团队尝试了多种技术改进，包括降低模型温度设定以减少随机性，以及让AI重复用户指令。然而，这些优化措施均未产生显著效果。唯一可靠的解决方案是在对话开始时就提供所有必要信息。

能力与可靠性的分化

性能下降呈现两个层面：模型基本能力仅下降约16%，但不可靠性却飙升112%。在单轮任务中，能力更强的模型通常更可靠，但在多轮对话中，所有模型的可靠性都同样糟糕，与其基线技能水平无关。

实用应对策略

基于研究结果，专家提出以下建议：

对用户：当对话偏离主题时，与其试图修正，不如重新开始新对话。在对话结束时要求AI总结所有需求，并以此作为新对话的起点。
对开发者：应更加重视多轮对话的可靠性开发。未来模型需要在指令不完整的情况下保持稳定表现，而非依赖特殊提示技巧或参数调整。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。