기술노트 — AI·풀스택·인프라 실전 개발 지식 | 영삼넷

본문 바로가기

Mobile3분 읽기

Apple Foundation Models — on-device 4B로 만든 사이드로드 챗봇

iOS 19의 Foundation Model API + 사이드로드 챗봇 만들기. 토큰 비용 0, 평균 응답 280ms. 한계와 한국어 품질.

Claude Opus 5 1M 컨텍스트 — 실측 200K 이후 정확도 곡선

1M 토큰 윈도우의 진짜 한계는 200K 이후 needle-in-haystack 정확도. 자사 코드베이스 7개 실측, 캐싱·청킹 전략 정리.

#Claude#LLM#Context

Infra4분 읽기

Envoy AI Gateway — LLM 라우팅·할당량·레이트 리밋 프로덕션

Envoy AI Gateway로 멀티 LLM 프로바이더 라우팅·팀별 할당량·토큰 기반 레이트 리밋을 한 곳에서. 사내 운영 6개월.

#Envoy#AIGateway#LLM

Speculative Decoding 프로덕션 — LLM 추론 2배 빠르게 만드는 법

draft 모델 + verifier 구조로 토큰 생성을 병렬화. n-gram, Medusa, EAGLE-2 비교와 vLLM 적용 실측 1.8~2.4배.

#LLM#Inference#Speculative

DSPy 2.7 프로덕션 — 프롬프트 자동 최적화 실전 사례

DSPy 2.7로 분류 파이프라인 자동 최적화. 정확도 +9.2%p, 사람-튜닝 1주 vs MIPROv2 4시간, 비용 변화 솔직 공개.

#DSPy#Prompt#Optimization

Mamba SSM 모델 프로덕션 — Transformer 대체, 어디서 빠른가

Mamba-2/3 SSM 아키텍처 실측. 32K 컨텍스트 처리량 Transformer 대비 3.8배, 정확도 격차와 한계 명확히 정리.

vLLM 1.0 vs SGLang vs TGI — LLM 추론 서버 실측 비교

vLLM 1.0·SGLang·TGI 3대 LLM 추론 서버 실측. Llama 70B 처리량·레이턴시·메모리, 양자화 지원과 운영 부담을 워크로드별로 비교.

#vLLM#SGLang#TGI

Sonnet 4.7 코딩 벤치마크 — 사내 코드베이스 100문제 실측

SWE-bench 같은 표준 벤치 말고, 사내 실제 코드에서 100문제 골라 Claude Sonnet 4.7 vs Opus 4.7 vs GPT-5.5 비교.

#Claude#Benchmark#Coding

프롬프트 인젝션 방어 — 2026년 LLM 위협 모델 7가지와 방어 패턴

에이전트·툴 사용 시대의 프롬프트 인젝션 7가지 위협과 다층 방어. 입력 분리, 권한 격리, 검증, 모니터링 체크리스트.

#LLM#Security#Prompt Injection

LLM 에이전트 평가 파이프라인 — golden set 구축부터 LangSmith·Phoenix 운영까지

LLM 에이전트를 "느낌"이 아닌 수치로 검증하는 평가 시스템. golden set 설계, 자동 채점, 회귀 감시까지 6개월 운영 노하우.

#LLM#Evaluation#LangSmith

LLM 추론 비용 최적화 — 캐싱·배치·라우팅으로 70% 절감하는 7가지 기법

LLM API 운영 비용 70% 절감하는 7가지 실전 기법. 프롬프트 캐싱·배치 API·모델 라우팅·프롬프트 압축 가이드.

#LLM#Cost#Optimization

LangGraph 0.5 멀티에이전트 패턴 — Supervisor·Swarm·Hierarchical 실전 가이드

LangGraph 0.5의 멀티에이전트 토폴로지 3종(Supervisor, Swarm, Hierarchical) 구조·구현·트레이드오프를 실전 코드로 정리.

#LangGraph#Agent#LLM