왜 평가가 중요한가
"감으로" 모델을 선택하면 비용과 품질 모두 최적화할 수 없습니다. 체계적인 평가 프레임워크가 필요합니다.
평가 메트릭
- 정확도: 정답 대비 맞춘 비율
- BLEU/ROUGE: 텍스트 유사도
- LLM-as-Judge: 다른 LLM이 평가
자동 평가 파이프라인
import { evaluate } from "langsmith";
await evaluate(myChain, {
data: "test-dataset",
evaluators: [accuracy, relevance, coherence],
experimentPrefix: "gpt4-vs-claude",
});
댓글 0