기술노트 — AI·풀스택·인프라 실전 개발 지식 | 영삼넷

본문 바로가기

Frontend3분 읽기

React 20 use() 안정화 — Suspense 데이터 페칭 실전 패턴

React 20에서 use() 훅이 정식 출시. Promise·Context 통합과 Suspense 경계 설계, 에러 핸들링까지 실전 적용.

#React20#useHook#Suspense

Anthropic Batch API — 대량 처리 비용 50% 절감 운영 패턴

Anthropic Batch API로 분석·임베딩·재처리 워크로드 비용을 절반으로. 큐 설계, 실패 처리, 데드라인 보장 패턴.

#BatchAPI#Cost#Pipeline

Claude Skills 사내 배포 — 팀 지식을 에이전트 능력으로 패키징

Claude Skills로 팀별 SOP·도메인 지식·코드 컨벤션을 패키징해서 사내 모든 Claude Code 세션에 자동 적용하는 운영기.

#ClaudeSkills#Knowledge#Agent

구조화 출력 2026 — Anthropic · OpenAI JSON Schema 모드 실전 비교

Anthropic의 structured output GA와 OpenAI Strict 모드를 동일 스키마 50개로 비교. 응답 신뢰성과 비용 검증.

#StructuredOutput#JSONSchema#Anthropic

AI 에이전트 관측 — Phoenix · LangSmith · Helicone 3개월 운영 비교

LLM 호출 trace와 비용·지연 모니터링. Phoenix, LangSmith, Helicone을 모두 적용해 3개월 운영한 실전 비교.

#Observability#LangSmith#Phoenix

멀티모달 임베딩 — Voyage 3.5 vs Cohere Embed v5 실측 비교

이미지·텍스트 혼합 검색에서 Voyage 3.5와 Cohere Embed v5를 사내 카탈로그 30만 건으로 벤치마크.

#Embedding#Multimodal#Voyage

Perplexity 스타일 검색 파이프라인 — 0에서 만드는 RAG+웹검색 통합

질문 분류, 다중 소스 검색, 인용 추출, 스트리밍 답변까지. Perplexity 같은 답변형 검색을 직접 구축하는 7단계 가이드.

#RAG#Search#Citation

vLLM 1.1 LoRA 핫스왑 — 멀티 테넌트 LLM 서빙, 비용 50%↓

vLLM 1.1의 LoRA 핫스왑 기능으로 테넌트별 미세조정 모델을 한 GPU에 동거시켜 인프라 비용을 절반으로 줄인 운영기.

#vLLM#LoRA#MultiTenant

AI 평가 프레임워크 3종 — promptfoo · DeepEval · Inspect 실전 비교

LLM 평가 도구 promptfoo, DeepEval, Inspect의 실전 사용 비교. 어떤 워크로드에 어떤 도구를 선택해야 하는지 결정 가이드.

#LLMEval#promptfoo#DeepEval

llama.cpp 3.0 + Apple Silicon M4 Max — 로컬 LLM 서빙 처리량 한계

M4 Max 128GB에서 llama.cpp 3.0으로 70B/8B 모델 처리량 한계 측정. Metal 백엔드 최적화, KV 캐시 양자화, 동시 세션 운영기.

#llamacpp#AppleSilicon#LocalLLM

Llama 5 405B Multimodal — 자체 호스팅 비용·성능 벤치마크

Llama 5 405B 멀티모달의 자체 호스팅 인프라 비용과 처리량 측정. 8×H200 대비 4×B200 비교, API 대비 손익분기점.

#Llama#SelfHosting#Inference

Gemini 3 Code Assist vs Claude Code — 실제 코드베이스 100태스크 비교

Gemini 3 Code Assist GA와 Claude Code를 동일 모노레포 100 태스크로 비교. 성공률, 비용, 토큰 효율, 멀티파일 편집 정확도 실측.

#Gemini#ClaudeCode#Benchmark