テストケース設計
各テストケースは次の 3 要素からなります。- Prompt
- Expected output
- Input files(必要なら)
evals/evals.json に保存します。
eval を回す
各テストケースは、少なくとも次の比較を行います。- with skill
- without skill または 旧バージョン
timing も記録する
品質だけでなく、時間とトークンも比較します。assertion を書く
最初の出力を見たあとで、検証可能な assertion を足します。grading
各 assertion について PASS / FAIL と証拠を残します。集計と改善
benchmark.json に pass rate、時間、トークンをまとめます。スキルありでだけ通る assertion が、スキルの価値が出ている部分です。人間レビューと実行トレースも合わせて見て、SKILL.md を改善して次の iteration を回します。