国内外主流模型对比

发布时间:2024-02-27 22:02:53 · 责任编辑:字母汇 · 浏览量:640 次

 对比分析总结

1)百度文心大模型

  • 优势:语言大模型技术领先,中文处理能力强,有丰富的应用场景和生态。
  • 劣势:对硬件要求较高,部署和运维成本较高。
  • 产品性能:高性能的自然语言处理能力。
  • 擅长领域:语言生成、语言理解、机器翻译等。
  • 接入方式:API接入,支持多种编程语言。
  • 使用成本:中等。

2)百川大模型

  • 优势:模型规模大,能够处理大规模的文本数据和复杂场景。
  • 劣势部署和运维成本较高,对硬件资源要求严格。
  • 产品性能:高性能的自然语言处理和文本生成能力。
  • 擅长领域:文本摘要、内容生成等。
  • 接入方式:API接入,支持多种编程语言。
  • 使用成本:中等。

3)Minimax

  • 优势:技术实力雄厚,致力于开发AI解决方案,具有广泛的应用场景和生态。
  • 劣势:对硬件要求较高,部署和运维成本较高。
  • 产品性能:高性能的自然语言处理能力。
  • 擅长领域:语言生成、语言理解、机器翻译等。
  • 接入方式:API接入,支持多种编程语言。
  • 使用成本:中等。

4)阿里通义

  • 优势:有着强大的云计算基础设施,大模型定制化程度高,性能稳定。
  • 劣势:与外部生态的连接不够丰富,应用场景有限。
  • 产品性能:高性能的自然语言处理和图像处理能力。
  • 擅长领域:智能客服、智能推荐等。
  • 接入方式:API接入,支持多种编程语言。
  • 使用成本:中等。

5)讯飞星火

  • 优势:语音识别与生成技术领先,语音大模型应用广泛。
  • 劣势:语言大模型技术相对较弱,对文本长度和领域有一定的限制。
  • 产品性能:高性能的语音识别和生成能力。
  • 擅长领域:语音交互、语音转换等。
  • 接入方式:API接入,支持多种编程语言。
  • 使用成本:较高。

6)OpenAI

  • 优势:在自然语言处理领域具有很高的声誉和技术实力,有广泛的应用场景和生态。
  • 劣势:对硬件要求较高,部署和运维成本较高。
  • 产品性能:高性能的自然语言处理能力。
  • 擅长领域:语言生成、语言理解、机器翻译等。
  • 接入方式:API接入,支持多种编程语言。
  • 使用成本:较高。

一、大模型横向对比测试

1. 翻译文章功能测试

专家审核结果:

邀请行业知名英文编辑老师查看翻译质量的结论。

看了4家翻译,每家都有错。具体问题如下:

1)专有公司名都是错的,都是按照字面翻。这是非特别训练的数据的基本共同问题。

2)文字的基本语法是正确的。

但是不能达到专业新闻写作的提供解释性内容的要求。特别是百川的好些。

3)4个翻译中,百川大模型中准确性最高,百度文心和讯飞星火并列。最差是OpenAI,把“盛美上海”译为中芯国际的“SMIC”。

文中涉及的公司名,标准处理如下:

  • 中科共芯 (刚注册,还没有官网,用汉语拼音可以)
  • 盛美上海 ACM Research
  • 拓荆科技 Picotech
  • 中科飞测 Skyverse
  • 微导纳米 Leadmicro

2. 通用问题测试

以下是10个通用的问题,它们覆盖了不同的主题和领域,旨在帮助您测试大模型的语言能力:

这些问题旨在评估大模型在不同主题和领域内的知识理解、分析能力和语言表达水平。通过这些问题,您可以对大模型的语言能力进行全面而有效的测试。

问题1:什么是人工智能?请简述其发展历程和当前应用领域。

测试结果如下:

问题2:环境保护对于可持续发展为何重要?请谈谈您的看法。

测试结果如下:

问题3:描述一下互联网如何改变了我们的生活方式和工作方式?

测试结果如下:

问题4:在全球化背景下,不同文化间的交流与融合有哪些积极作用?

测试结果如下:

问题5:请谈谈您对健康和健康生活方式的理解,以及它们对个人和社会的重要性。

测试结果如下:

问题6:教育对于个人成长和社会发展有何重要性?您认为教育的未来趋势是什么?

测试结果如下:

问题7:科技进步如何影响我们的日常生活?请举例说明。

测试结果如下:

问题8:旅行可以带来哪些好处?请谈谈您最喜欢的旅行经历及其对您的影响。

测试结果如下:

  1. 百川、MINIMAX、千问比较雷同;
  2. 百度和讯飞的回答风格比较类似;
  3. OpenAI的是最全面,并且最智能的,知道自己是虚拟助手。

问题9:您如何看待社交媒体在现代社会中的角色?它有哪些正面和负面影响?

测试结果如下:

问题10:请描述一下您对未来世界的展望,包括科技、环境、社会等方面的发展趋势。

测试结果如下:

3. 测试结果小结

横向对比回答,在每个问题上的表现,表现比较好的打钩√,表现稍微差一些的不标识。

小结:

  1. 通用问题是AI生成的。
  2. 测评打分主要是从回答的丰富度、完整等、深度,以及连接输出的稳定性上进行考察。
  3. 整体而言,Open AI的效果确实比国内大模型的表现要好一些。
  4. 国内大模型,在通用能力的语言理解和表达上,以百度文心和通义千问效果最佳。
  5. 讯飞星火的得分比较低,主要是因为在同一个问题上,回答的结构性,输出的文字内容丰富度不够其他家好,但是整体给出的回答也是不错的。
  6. 结果只是相对而言,掺杂着作者的主观感受,仅供参考。

4. 专业机构测评结果参考

SuperCLUE总排行榜(2023年12月)

可参考:

SuperCLUE十大基础能力排行榜(2023年12月)

可参考:

分析小结:

  1. 在计算、逻辑与推理、代码、语言理解和收取、生成与创作、上下文对话、角色扮演、工具使用、传统安全等领域,GPT4-Turbo是表现最好的,其次是国内的文心一言4.0,千问等;
  2. 知识与百科,国内的大模型表现比较好。

二、调研总结对比

1. 能力对比

2. 价格对比

三、大模型选型建议

1. 选择一家供应商的方案

  1. 如果是“API接入”的方式,取通用能力,首选效果好的百川大模型、其次是百度文心大模型、阿里通义大模型;
  2. 如果是“API接入+微调+服务器”的方式,取生态好,有云服务的厂商,首选:百度文心大模型、阿里通义大模型;
  3. 如果是“API接入+微调+服务器+行业落地应用+AI工具”的方式,取通用能力强、生态好、产品矩阵丰富、有云服务的厂商、行业落地产品有实际案例的,首选:阿里通义大模型、百度文心大模型、其次讯飞星火大模型。

综合来看,考虑企业的实际情况,最有可能选择的供应商:阿里通义大模型、百度文心大模型。

2. 多家供应商并用的方案

  1. 通用大模型,可选:百度文心大模型、阿里通义大模型、百川大模型、讯飞星火大模型;
  2. 行业落地垂类模型,可选:阿里通义大模型;
  3. 更多AI工具接入,可选:讯飞星火大模型。

综合来看,可采用API的方式接入:百度文心大模型、阿里通义大模型、讯飞星火大模型,局部AI能力购买百度或讯飞。

放弃微调,采用百度、阿里的垂类模型定制功能,可能成本更低一些。

3. 低成本提效的方案

如果成本考虑优先、又希望效果比较,在目前用户量和影响力还比较好的情况下,可采取:

  1. 通用能力接openAI 的ChatGPT3.5或ChatGPT4.0的模型。前提是合法合规。
  2. 放弃微调,购买定制开发垂类模型。
  3. 定向开发AI行业属性应用工具