首页 > 快讯 > Google AI 发布 Stax:助力开发者依据个人标准评测大型语言模型

Google AI 发布 Stax:助力开发者依据个人标准评测大型语言模型

发布时间:2025-09-03 10:59:02 | 责任编辑:吴昊 | 浏览量:68 次

谷歌 AI 最近发布了一款名为 Stax 的实验性评估工具,旨在帮助开发者更有效地测试和分析大语言模型(LLMs)。与传统软件测试不同,LLMs 是概率性系统,它们可能会对相同的提示产生不同的响应,这使得评估的一致性和可重复性变得复杂。因此,Stax 为开发者提供了一种结构化的方法,可以根据自定义标准来评估和比较不同的 LLMs。
在进行模型评估时,通常会使用排行榜和通用基准测试,这些方法对于高层次的模型进展跟踪有帮助,但却不能反映特定领域的需求。例如,在开放领域推理任务中表现良好的模型,可能无法处理合规性摘要、法律文本分析或特定企业问题回答等专业用例。Stax 通过允许开发者定义与其用例相关的评估流程,从而解决了这一问题。
Stax 的一个重要功能是 “快速比较”。这个功能使开发者能够并排测试不同模型的多种提示,从而更容易了解提示设计或模型选择对输出结果的影响,减少试错所需的时间。此外,Stax 还提供了 “项目与数据集” 功能,当需要进行更大规模的测试时,开发者可以创建结构化的测试集,并在多个样本中应用一致的评估标准,这样不仅支持了可重复性,也使得在更现实的条件下评估模型变得更加容易。
Stax 的核心概念是 “自动评估器”。开发者可以构建适合其用例的自定义评估器,或者使用预构建的评估器。内置选项涵盖了常见的评估类别,例如流畅性(语法正确性和可读性)、基础性(与参考材料的事实一致性)以及安全性(确保输出避免有害或不当内容)。这种灵活性使得评估能够与实际需求对接,而不是采用单一的通用指标。
此外,Stax 的分析仪表板可以更方便地解释结果,开发者可以查看性能趋势、比较不同评估器的输出,并分析不同模型在同一数据集上的表现。整体上,Stax 为开发者提供了一种从临时测试转向结构化评估的工具,帮助团队在生产环境中更好地理解模型在特定条件下的表现,以及跟踪输出是否符合实际应用所需的标准。
项目:https://stax.withgoogle.com/landing/index.html
划重点:
🌟 Stax 是谷歌 AI 推出的一款实验性工具,旨在帮助开发者根据自定义标准评估大语言模型。
🔍 通过 “快速比较” 和 “项目与数据集” 功能,开发者可以更有效地进行模型测试和评估。
📊 Stax 支持自定义和预构建评估器,帮助开发者获得与实际需求相关的评估结果。

Google AI 发布 Stax:助力开发者依据个人标准评测大型语言模型
谷歌 AI 近日推出了一款实验性开发者工具 Stax,旨在帮助开发者根据自定义标准科学、量化地评估大型语言模型(LLM),从而摆脱“拍脑袋调试”的困境

核心亮点

功能 说明
自定义评估标准 开发者可根据自身业务场景(如客服语气、代码规范、隐私合规等)设定评判标准,而不依赖通用基准

双轨评估方式 支持人工评分(精准但慢)和自动评估(Autorater)(用更强的模型如 Gemini 批量打分,高效且可扩展)

灵活数据集管理 可导入现成测试数据或通过提示生成新数据,适配多样化场景

预构建 + 自定义评估器 内置流畅性、事实一致性、安全性等通用指标,同时支持构建专属评估器(如品牌语气、行业合规)

实际应用场景

  • 提示迭代优化:量化比较不同提示词的效果,避免“感觉更好”的主观判断。

  • 模型选型:在生产前对比多个模型在特定数据集上的表现,选择最优解。

  • 领域验证:如法律、医疗等专业场景,确保模型输出符合行业规范。

  • 持续监控:随业务数据变化,周期性复评模型性能,防止退化。

快速上手步骤

  1. 访问平台stax.withgoogle.com 开启体验

  2. 配置密钥:添加 Gemini API 密钥(默认支持,也可接入其他模型)

  3. 创建项目:选择单一模型评估或并排对比多个模型。

  4. 构建数据集:上传 CSV 或手动输入问答对,亦可让模型生成测试数据。

  5. 运行评估:选择预置或自定义评估器,自动输出质量、延迟等量化结果。

谷歌通过 Stax 传递的理念是:从“凭直觉试错”转向“用数据驱动决策”,让 AI 应用开发像传统软件一样有标准、有底气

©️版权声明:
本网站(https://aigc.izzi.cn)刊载的所有内容,包括文字、图片、音频、视频等均在网上搜集。
访问者可将本网站提供的内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯本网站及相关权利人的合法权利。除此以外,将本网站任何内容或服务用于其他用途时,须征得本网站及相关权利人的书面许可,并支付报酬。
本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

最新Ai信息

最新Ai工具

热门AI推荐