首页 > 快讯 > 研究曝光低质量数据如何影响大语言模型：AI遭遇类似“脑损伤”问题？

研究曝光低质量数据如何影响大语言模型：AI遭遇类似“脑损伤”问题？

发布时间：2025-11-17 11:33:52 | 责任编辑：吴昊 | 浏览量：11 次

最近，一项引人关注的研究表明，大语言模型（LLM）在持续接触低质量数据后，会出现类似于人类的 “脑损伤” 现象，导致推理和记忆能力显著下降。研究者发现，AI 模型在接受高流行但低价值的社交媒体数据(如 Twitter)训练后，推理能力下降了23%，长上下文记忆能力下降了30%。而更令人担忧的是，这种损伤是不可逆的，即使在后续用高质量数据进行训练，模型也无法完全恢复到初始状态。
这项研究由一组 AI 研究者进行，他们对低质量数据进行了详细定义，并与高质量数据进行对比。他们将低质量数据归类为 “短文本、高热度” 的内容，特别是那些包含标题党和流行语的社交媒体帖子。研究表明，AI 模型接触这些低质量数据后，除了认知能力下降外，其人格特征也受到影响，表现出更多的自恋和精神病态特质。
研究团队选择了四个不同的大语言模型进行训练，分别让它们接受这两类数据。研究过程中，模型的核心能力通过多种维度进行评估，包括推理能力、记忆能力和道德规范的遵循。结果显示，“垃圾进垃圾出” 的原则确实适用于大语言模型，这一发现对未来的 AI 数据训练提出了新的警示。
研究人员认为，行业在训练 AI 时，必须关注数据的质量，避免低质量数据带来的潜在风险。此外，他们还建议在部署大模型时，应进行认知能力的基准测试，以确保 AI 不因长期接触低质量数据而导致能力退化。
划重点:
🧠 AI 模型在接触低质量数据后，推理和记忆能力显著下降，且损伤不可逆。
📉 接触低质量数据后，AI 模型表现出更多自恋和精神病态特质。
🔍 研究提醒，训练 AI 时要重视数据质量，并进行认知能力测试。