Agent Insight
Agent Workspace
概览Agent 管理
链路追踪智能诊断质量监控
评测数据集评估器评测执行
Skills HubSkills 生成Skills 评测Skills 优化
配置
模型注册联网搜索安装指导
Skills 评测 › 调测分析

A/B 测试

/A/B测试
+ 新建 A/B 任务先在下方选好 Skill 与 B 实验版本
SKL
评测 Skill 对象
A 对照版本
B 实验版本
STEP 1 · CONFIG准备: 配置实验参数0 样本 x 1 轮 · 0 数据集
2
STEP 2 · EXECUTION执行: 运行 A/B 测试0/0 未选择样本
3
STEP 3 · DECISION决策: 综合判定 & 上线等待评估完成
配置配置中
设置参数 · 实验版本由 Skill 分析决定,对照版本由本配置决定
重复轮次 *单轮适合快速试跑与校验配置
数据集
先选择数据集,再勾选要执行的样本
评估器
使用预置评估器,适合直接开始评测
对照组 Skill 版本对照组加载 Skill 基线 Agent · grayscale-baseline-agent
输入来源
暂无数据用例
已选样本数:0 个⚠️ 请先选择至少 1 条样本
当前配置:0 样本 * 2 组 * 1 轮 = 0 次执行 | 最大并发:4
执行 A/B 测试
对照组 () vs 实验组 () · 每次执行的过程数据
A
对照组: 基线 Agent
Skill: cpu-model-query Agent: grayscale-baseline-agent
未执行
⏳
0/0 未执行
等待执行评测
Skill 触发—
工具调用—
答案准确性
耗时
—
TOKEN
—
评分
—
VS
B
实验组: 基线 Agent
Skill: cpu-model-query Agent: grayscale-baseline-agent
未执行
⏳
0/0 未执行
等待执行评测
Skill 触发—
工具调用—
答案准确性
耗时
—
TOKEN
—
评分
—
测评结果⚡ 等待决策
待评分
DECISION
等待评估完成
综合 — / 100
下一步·等待所有执行记录评估完成后,再查看综合判定和上线动作。
维度
分数
0 · 50 ·75100
关键证据
能力样本不足
Skill 让 Agent 多做成了多少事
—/ 100
—
成本样本不足
多花了多少 token / 时间
—/ 100
—
稳定性样本不足
该触发时触发了吗, 结果稳吗
—/ 100
—
▸原始数据与计算公式min(capability, cost, stability)
能力capability
评测均分A—B—
通过率A—B—
Δscore—
avgEvalA = mean(0 runs) = —
avgEvalB = mean(0 runs) = —
Δscore   = avgEvalB − avgEvalA = —
score    = clamp(50 + — × 2.5, 0, 100) = —
docs/skill-ab-scoring.md §3.1
成本cost
TokenA—B—
耗时A—B—
步数A—B—
ΔToken—
avgTokensA = mean(0 runs) = —
avgTokensB = mean(0 runs) = —
Δtoken     = (avgTokensB − avgTokensA) / avgTokensA × 100% = —%
baseCost   = piecewise(Δtoken; 0%→100, 20%→80, 100%→40, 200%→0) = —
coupling   = 无能力分参考
score      = clamp(baseCost + coupling, 0, 100) = —
A 组平均 Token 缺失或为 0,成本维度无法计算
docs/skill-ab-scoring.md §4.1
稳定性stability
触发率B—
方差B— (R=1)
invokeRate = 0 / 0 = —%
variance   = (重复轮次 < 2,按 0 处理)
1 − var/0.25 = 1
score      = —% × 1 = —
重复轮次不足,方差不可计算
docs/skill-ab-scoring.md §5.1
综合 (短板原则)verdict
capability = —
cost       = —
stability  = —
total      = 任一维度缺失,无法出综合分
docs/skill-ab-scoring.md §6.1
SAMPLE N=0 / 推荐 ≥20 · 重复 1 轮 · 置信度 低策略:agent-skill-scoring-v2.1