AI实验室
Artificial Analysis(AI模型评估)官网
Artificial Analysis 网站主要提供对 AI 模型和 API 提供商的独立分析,以帮助用户根据自身用例选择最佳模型和提供商,主要内容包括:
- 模型对比亮点
- 综合模型比较:涵盖多种模型,如 o1-preview、o1-mini、Claude 3.5 Sonnet (Oct)、Gemini 1.5 Pro (Sep)、GPT-4o 等。
- 质量评估:通过人工分析质量指数衡量,指数越高越好,涉及不同维度智能评估,当前包括 MMLU、GPQA、Math 和 HumanEval 等多项测试,结果以中位数呈现。部分模型在推理与知识(MMLU)、科学推理与知识(GPQA)、定量推理(MATH)、编码(HumanEval)、沟通(LMSys Chatbot Arena ELO Score)等方面表现各异。
- 速度指标
- 输出速度:以每秒输出令牌数衡量,越高越好,不同模型速度不同,如 Gemini 1.5 Flash (Sep) 速度较快,Llama 3.1 405B 相对较慢。
- 延迟:以收到首个令牌块的时间(秒)计算,越低越好,不同模型在该指标上表现有差异。
- 价格信息
- 以每百万令牌的美元价格表示,价格范围广,部分模型较便宜,如 Gemini 1.5 Flash (Sep),部分较贵,如 o1-preview。价格包含输入和输出令牌价格(3:1 比例)。不同模型输入和输出价格单独列出,且不同提供商价格不同,使用场景会影响输入与输出令牌价格的相对重要性。
- 模型比较象限图
- 质量与价格:展示不同模型在质量和价格方面的分布,部分模型处于高质量低价格的较优象限,如 o1-preview、o1-mini 等,但高质量模型价格不一定遵循相同曲线。
- 质量与输出速度:体现模型质量和输出速度的权衡关系,高质量模型输出速度通常较低。
- API 提供商亮点(以 Llama 3.1 Instruct 70B 为例)
- 输出速度与价格:新兴提供商在输出速度和价格方面有竞争力,如 Cerebras、Hyperbolic 等,速度和价格在不同提供商间存在差异,且速度每日会有波动,部分提供商支持不同上下文长度(如 Cerebras 为 8k 上下文,SambaNova 为 64k 上下文)。
上海人工智能研究院