评估(Evaluation)
约 1413 字大约 5 分钟
2026-05-12
Evaluation 是把“感觉效果不错”变成“系统可持续改进”的方法。没有 eval,prompt、模型、RAG、Agent 和工具调用的变化都只能靠主观试用判断,迟早会被回归问题拖住。
为什么要学这个
AI 应用最大的问题之一,是输出质量不稳定。你改了一句 prompt,某些问题变好了,另一些问题变差了;换了模型,平均效果提升,但关键场景出错;接了 RAG,答案更长了,但引用反而不准。
Evaluation 要解决的就是这些问题:用明确样本、指标、评分方式和回归测试,判断系统是不是真的变好了。
学 eval 的目标不是做一份漂亮报告,而是让团队能回答:这次改动有没有让关键任务更可靠?有没有引入新的失败模式?
第一性原理
不能被重复测量的 AI 行为,就不能被稳定改进。
AI 系统的输出有概率性,用户问题又很开放。如果没有固定样本和评估标准,你很难知道系统变化来自真实改进、运气、还是测试样本太少。
- 先测任务,不只测模型:用户真正关心的是整条链路是否完成任务,而不是模型榜单分数。
- 先保住关键失败场景:高风险错误、常见问题、边界条件,要进入 regression set。
- 评估要贴近产品:离真实输入越远,eval 越容易变成自我安慰。
知识节点
Harness
Harness 是运行 eval 的框架。它负责喂样本、调用系统、收集输出、运行 grader、记录结果。
一个最小 harness 至少需要:
- 输入样本
- 期望输出或评分规则
- 被测系统版本
- 模型和参数配置
- 运行日志
- 结果报告
Harness 的价值是可重复。没有可重复运行的 eval,你就很难比较不同 prompt、不同模型、不同检索策略。
Golden Set
Golden Set 是一组被认真挑选和标注的测试样本。
它不一定要很大。早期 30 到 100 条高质量样本,往往比一堆随便收集的问题更有用。关键是覆盖真实任务和关键失败模式。
Golden Set 应该包含:
- 常见正常问题
- 边界问题
- 容易误判的问题
- 高风险问题
- 历史 bug
- 用户真实反馈样本
每修一个重要 bug,都应该考虑把它变成 regression 样本。
LLM-as-Judge
LLM-as-Judge 是用模型来给模型输出评分。它适合评估开放式答案,比如摘要质量、是否回答完整、是否遵循格式、是否引用来源。
但它不能被神化。Judge 模型也会偏、会漏、会被输出风格影响。更稳的做法是:
- 对可自动判断的字段用规则评分。
- 对开放式质量用 LLM judge。
- 对高风险样本保留人工抽检。
- 定期校准 judge 和人工评分的一致性。
LLM-as-Judge 是评估工具,不是最终真相。
Regression
Regression 是防止旧问题复发。
AI 应用很容易出现“修 A 坏 B”。一次 prompt 修改、一次模型升级、一次 retriever 调整,都可能影响很多旧场景。Regression set 的作用就是把历史问题固定下来,每次改动都重新跑。
一个实用做法:
- 用户反馈一个错误。
- 复现并记录输入。
- 标注期望输出或拒答条件。
- 加入 regression set。
- 之后每次发布前跑一次。
Observability
Observability 是线上观察系统行为的能力。Eval 多数发生在发布前,observability 发生在真实使用中。
你至少要记录:
- 输入类型和来源
- 检索结果
- 工具调用
- 模型输出
- 错误和重试
- 用户反馈
- 成本和延迟
没有 observability,你就不知道真实用户在哪里失败,也不知道该往 golden set 里补什么。
在 AI x Web3 中的位置
AI x Web3 系统里,eval 更重要,因为错误可能影响资产、权限、治理判断和链上执行。
需要特别评估:
- 交易解释是否准确
- 风险提示是否漏报
- 工具调用参数是否越界
- 是否能拒绝不确定请求
- 是否能识别 Prompt Injection
- 引用和来源是否可追溯
- 高风险动作是否要求 human check
Eval 不会替代交易模拟和权限控制,但它能让你持续发现系统在什么场景下不可靠。
最小实践
给一个“交易解释 / 文档问答 / Agent 工具调用”原型做最小 eval。
准备 30 条样本:
- 10 条正常问题
- 10 条边界或容易混淆的问题
- 5 条历史 bug 或预期失败样本
- 5 条恶意或注入样本
为每条样本定义:
- 输入
- 期望行为
- 必须包含的信息
- 必须拒绝或提醒的情况
- 是否需要引用来源
然后每次改 prompt、模型或检索策略前后跑一遍,记录变化。
扩展阅读
- OpenAI Evals API Reference:查看 OpenAI 平台如何创建和运行 eval。
- OpenAI: How evals drive the next chapter in AI:从产品和业务角度理解 eval 为什么重要。
- OpenAI Evals GitHub:开源 eval 框架和样例,适合理解 benchmark / grader 的组织方式。
- LangSmith Evaluation Docs:了解 LLM 应用的 dataset、experiment、feedback 和 tracing。
- RAGAS Documentation:适合学习 RAG 场景下的回答质量、上下文相关性和 faithfulness 评估。