핵심 요약
LLM 비용은 입력+출력 토큰에 비례한다. 줄이는 핵심은 ① 반복되는 큰 프롬프트는 프롬프트 캐싱, ② 쉬운 작업은 작은/싼 모델로 라우팅, ③ 컨텍스트를 꼭 필요한 만큼만, ④ 출력 토큰 상한·간결 지시. 품질을 유지하면서 비용만 깎을 여지가 크다.
1. 절감 레버
| 레버 | 효과 |
|---|---|
| 프롬프트 캐싱 | 반복 시스템/문서 토큰 비용↓ |
| 모델 라우팅 | 분류·요약은 소형 모델 |
| 컨텍스트 압축 | 관련 청크만 주입 |
| max_tokens 제한 | 장황한 출력 방지 |
2. 구조 팁
- 같은 질문 캐시(정확/의미 캐시)로 호출 자체를 줄임
- 난도에 따라 모델 분기(라우터) — 어려운 것만 대형 모델
- 스트리밍으로 체감 속도↑(비용과 별개지만 UX)
3. 함정
- 프롬프트 캐싱은 "변하지 않는 접두부"를 앞에 둬야 적중한다
- 무조건 작은 모델은 품질 저하 — 평가셋으로 합격선 확인
- 출력 제한이 너무 빡빡하면 답이 잘린다
자주 묻는 질문
프롬프트 캐싱은 언제 효과가 큰가요?
긴 시스템 프롬프트나 같은 문서를 여러 요청에서 반복 주입할 때입니다. 변하지 않는 부분을 프롬프트 앞쪽에 고정해야 캐시가 적중합니다.
작은 모델로 바꾸면 품질이 걱정됩니다.
분류·추출·짧은 요약 같은 단순 작업은 소형 모델로도 충분한 경우가 많습니다. 평가셋으로 합격선을 확인하고 어려운 작업만 대형 모델로 라우팅하세요.

댓글 0