首页 > 快讯 > 美团推出全新Meeseeks评估标准！o3-mini名列前茅，而DeepSeek-R1却出人意料地位列最后，引发广泛讨论

美团推出全新Meeseeks评估标准！o3-mini名列前茅，而DeepSeek-R1却出人意料地位列最后，引发广泛讨论

发布时间：2025-08-29 17:11:36 | 责任编辑：吴昊 | 浏览量：211 次

近年来，随着 OpenAI 的 o 系列模型、Claude3.5Sonnet 和 DeepSeek-R1等大型语言模型的快速发展，人工智能的知识和推理能力备受关注。然而，很多用户在实际使用中发现，这些模型有时未能完全按照输入的指令执行，导致输出结果虽然内容不错，却并未满足具体的格式或内容要求。为了深入研究和评估这些模型的指令遵循能力，美团 M17团队推出了全新的评测基准 ——Meeseeks。
Meeseeks 专注于评测大模型的指令遵循能力，采用了一种创新的评测视角。与传统的评测方法不同，Meeseeks 关注的是模型是否严格遵循用户的指令，而不单纯评估回答的知识准确性。这一评测框架将指令遵循能力拆解为三个层次，确保评估的深度与广度，具体包括:任务核心意图的理解、具体约束类型的实现和细粒度规则的遵循。
在最近的评测中，基于 Meeseeks 的结果显示，推理模型 o3-mini（high）以绝对优势夺得第一，另一版本 o3-mini(medium)紧随其后，Claude3.7Sonnet 则稳居第三。相比之下，DeepSeek-R1和 GPT-4o 的表现则不尽如人意，排名分别为第七和第八。
Meeseeks 的独特之处在于其广泛的评测覆盖面和高难度的数据设计。此外，它引入了 “多轮纠错” 模式，允许模型在初次回答不符合要求时进行修正。这一模式显著提升了模型的自我纠错能力，尤其是在多轮反馈后，所有参与的模型的指令遵循准确率都有明显提高。
通过 Meeseeks 的评测，研究团队不仅揭示了不同模型之间的指令遵循能力差异，还对大模型的未来研究提供了宝贵的参考依据。
魔搭社区:https://www.modelscope.cn/datasets/ADoubLEN/Meeseeks
GitHub: https://github.com/ADoublLEN/Meeseeks
Huggingface:https://huggingface.co/datasets/meituan/Meeseeks

美团 M17 团队近期开源了全新评测基准 Meeseeks，专门用于评估大模型的 指令遵循能力（即“听话”能力）。该基准基于真实业务数据，创新性地采用“多轮纠错”模式，仅关注模型是否严格遵循用户指令，不评估回答内容的正确性

。

基于 Meeseeks 评测结果（第三轮）：

OpenAI 的推理模型 o3-mini（high）和 o3-mini（medium）包揽冠亚军，表现突出

。
Claude 3.7 Sonnet 的“思考版”排名第三

。
DeepSeek-R1 排名第七，GPT-4o 排名第八，引发热议

。
DeepSeek-V3 在非推理大模型中领先，而 Qwen2.5 则表现出参数规模与指令遵循能力并非绝对相关

。

Meeseeks 支持中文和英文，已在魔搭社区、GitHub 和 Huggingface 上线

。

©️版权声明：
本网站(https://aigc.izzi.cn)刊载的所有内容，包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏，以及其他非商业性或非盈利性用途，但同时应遵守著作权法及其他相关法律的规定，不得侵犯本网站及相关权利人的合法权利。除此以外，将本网站任何内容或服务用于其他用途时，须征得本网站及相关权利人的书面许可，并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

上一篇：腾讯元宝加入视频号留言区:AI 对话伙伴革新，促进顺畅交流

下一篇：全新百度搜索AI助手正式推出高速模型带来搜索效率显著增强

美团推出全新Meeseeks评估标准！o3-mini名列前茅，而DeepSeek-R1却出人意料地位列最后，引发广泛讨论

最新Ai信息

最新Ai工具

热门AI推荐