กรอบงานประเมินผล
กรอบงานประเมินและตรวจสอบเอเจนต์เขียนโค้ด AI แบบออฟไลน์
สรุป
รัน
clew eval init เพื่อสร้างโฟลเดอร์ประเมินผลในโปรเจกต์ของคุณ จากนั้นรัน clew eval run เพื่อรันเกณฑ์มาตรฐานการเขียนโค้ดหรือวิจัยในเครื่อง
ภาพรวม
Clew มีกรอบงานประเมินผลแบบออฟไลน์ในตัวภายใต้เนมสเปซคำสั่ง /eval ช่วยให้นักพัฒนาสามารถให้คะแนนคุณภาพผลลัพธ์ของเอเจนต์, ตรวจจับ regression ในร่องรอย, และเปรียบเทียบเวอร์ชันโมเดล
การใช้งาน CLI
1. เริ่มต้น Workspace
claude eval init
2. รันการประเมิน
# รันงานทั้งหมด
claude eval run
# รันเฉพาะหมวด "coding"
claude eval run --set coding
# รันงานเฉพาะ
claude eval run --task coding.sample-task
3. เปรียบเทียบ Drift และ Regression
claude eval compare --baseline main