TECH NOTES
기술노트
현장에서 검증된 개발 지식을 기록합니다.
118111801179117811771176117511741173117211711170
Frontend
React 20 use() 안정화 — Suspense 데이터 페칭 실전 패턴
React 20에서 use() 훅이 정식 출시. Promise·Context 통합과 Suspense 경계 설계, 에러 핸들링까지 실전 적용.
AI
Anthropic Batch API — 대량 처리 비용 50% 절감 운영 패턴
Anthropic Batch API로 분석·임베딩·재처리 워크로드 비용을 절반으로. 큐 설계, 실패 처리, 데드라인 보장 패턴.
AI
Claude Skills 사내 배포 — 팀 지식을 에이전트 능력으로 패키징
Claude Skills로 팀별 SOP·도메인 지식·코드 컨벤션을 패키징해서 사내 모든 Claude Code 세션에 자동 적용하는 운영기.
AI
구조화 출력 2026 — Anthropic · OpenAI JSON Schema 모드 실전 비교
Anthropic의 structured output GA와 OpenAI Strict 모드를 동일 스키마 50개로 비교. 응답 신뢰성과 비용 검증.
AI
AI 에이전트 관측 — Phoenix · LangSmith · Helicone 3개월 운영 비교
LLM 호출 trace와 비용·지연 모니터링. Phoenix, LangSmith, Helicone을 모두 적용해 3개월 운영한 실전 비교.
AI
멀티모달 임베딩 — Voyage 3.5 vs Cohere Embed v5 실측 비교
이미지·텍스트 혼합 검색에서 Voyage 3.5와 Cohere Embed v5를 사내 카탈로그 30만 건으로 벤치마크.
AI
Perplexity 스타일 검색 파이프라인 — 0에서 만드는 RAG+웹검색 통합
질문 분류, 다중 소스 검색, 인용 추출, 스트리밍 답변까지. Perplexity 같은 답변형 검색을 직접 구축하는 7단계 가이드.
AI
vLLM 1.1 LoRA 핫스왑 — 멀티 테넌트 LLM 서빙, 비용 50%↓
vLLM 1.1의 LoRA 핫스왑 기능으로 테넌트별 미세조정 모델을 한 GPU에 동거시켜 인프라 비용을 절반으로 줄인 운영기.
AI
AI 평가 프레임워크 3종 — promptfoo · DeepEval · Inspect 실전 비교
LLM 평가 도구 promptfoo, DeepEval, Inspect의 실전 사용 비교. 어떤 워크로드에 어떤 도구를 선택해야 하는지 결정 가이드.
AI
llama.cpp 3.0 + Apple Silicon M4 Max — 로컬 LLM 서빙 처리량 한계
M4 Max 128GB에서 llama.cpp 3.0으로 70B/8B 모델 처리량 한계 측정. Metal 백엔드 최적화, KV 캐시 양자화, 동시 세션 운영기.
AI
Llama 5 405B Multimodal — 자체 호스팅 비용·성능 벤치마크
Llama 5 405B 멀티모달의 자체 호스팅 인프라 비용과 처리량 측정. 8×H200 대비 4×B200 비교, API 대비 손익분기점.
AI
Gemini 3 Code Assist vs Claude Code — 실제 코드베이스 100태스크 비교
Gemini 3 Code Assist GA와 Claude Code를 동일 모노레포 100 태스크로 비교. 성공률, 비용, 토큰 효율, 멀티파일 편집 정확도 실측.