AI2025년 3월 19일1분 읽기

AI 프롬프트 캐싱 — 비용 절감과 성능 최적화

YS
YoungSam
조회 203

프롬프트 캐싱이란

긴 시스템 프롬프트나 반복되는 컨텍스트를 캐시하여 비용과 지연 시간을 줄입니다.

Anthropic 프롬프트 캐싱

const response = await anthropic.messages.create({
  model: "claude-3-5-sonnet-20241022",
  system: [{
    type: "text",
    text: longSystemPrompt,  // 수천 토큰
    cache_control: { type: "ephemeral" }
  }],
  messages: [{ role: "user", content: query }]
});
// 캐시 히트 시 90% 비용 절감

효과

  • 캐시 적중: 입력 토큰 비용 90% 감소
  • 응답 시간: 최대 85% 단축
  • TTL: 5분 (사용 시마다 갱신)
LLMCachingOptimization

댓글 0

아직 댓글이 없습니다.