กรอบงานประเมินผล

กรอบงานประเมินและตรวจสอบเอเจนต์เขียนโค้ด AI แบบออฟไลน์

สรุป รัน clew eval init เพื่อสร้างโฟลเดอร์ประเมินผลในโปรเจกต์ของคุณ จากนั้นรัน clew eval run เพื่อรันเกณฑ์มาตรฐานการเขียนโค้ดหรือวิจัยในเครื่อง

ภาพรวม

Clew มีกรอบงานประเมินผลแบบออฟไลน์ในตัวภายใต้เนมสเปซคำสั่ง /eval ช่วยให้นักพัฒนาสามารถให้คะแนนคุณภาพผลลัพธ์ของเอเจนต์, ตรวจจับ regression ในร่องรอย, และเปรียบเทียบเวอร์ชันโมเดล

การใช้งาน CLI

1. เริ่มต้น Workspace

claude eval init

2. รันการประเมิน

# รันงานทั้งหมด
claude eval run
# รันเฉพาะหมวด "coding"
claude eval run --set coding
# รันงานเฉพาะ
claude eval run --task coding.sample-task

3. เปรียบเทียบ Drift และ Regression

claude eval compare --baseline main