본문 바로가기
전체 49
49
AI2분 읽기
Google Gemini 3.5 Pro — 한국어 + 코딩 평가 40시간
Gemini 3.5 Pro 출시 후 40시간 평가. SWE-bench 80.2%, 한국어 KMMLU 85.8%, 2M 컨텍스트. Claude 4.9 비교.
#Google#Gemini#LLM
2026.06.04
48
AI2분 읽기
Anthropic Claude 4.9 출시 — 100시간 사용 평가
Claude 4.9 (Opus·Sonnet·Haiku) 출시 후 100시간 사용 평가. SWE-bench 82.1%, 1M needle 정확도, 가격 정책 변화.
#Claude#Anthropic#LLM
2026.06.03
47
AI2분 읽기
NVIDIA Project DIGITS — 사무실 책상 AI 워크스테이션 6개월
NVIDIA Project DIGITS(GB10) 6개월 사용기. 200B 모델 로컬 실행, fine-tune, 가정·사무실 power 한계.
#NVIDIA#LLM#Workstation
2026.05.27
46
Mobile2분 읽기
Apple Foundation Models — on-device 4B로 만든 사이드로드 챗봇
iOS 19의 Foundation Model API + 사이드로드 챗봇 만들기. 토큰 비용 0, 평균 응답 280ms. 한계와 한국어 품질.
#Apple#iOS#LLM
2026.05.24
45
AI3분 읽기
Claude Opus 5 1M 컨텍스트 — 실측 200K 이후 정확도 곡선
1M 토큰 윈도우의 진짜 한계는 200K 이후 needle-in-haystack 정확도. 자사 코드베이스 7개 실측, 캐싱·청킹 전략 정리.
#Claude#LLM#Context
2026.05.23
44
Infra4분 읽기
Envoy AI Gateway — LLM 라우팅·할당량·레이트 리밋 프로덕션
Envoy AI Gateway로 멀티 LLM 프로바이더 라우팅·팀별 할당량·토큰 기반 레이트 리밋을 한 곳에서. 사내 운영 6개월.
#Envoy#AIGateway#LLM
2026.05.21
43
AI5분 읽기
Speculative Decoding 프로덕션 — LLM 추론 2배 빠르게 만드는 법
draft 모델 + verifier 구조로 토큰 생성을 병렬화. n-gram, Medusa, EAGLE-2 비교와 vLLM 적용 실측 1.8~2.4배.
#LLM#Inference#Speculative
2026.05.18
42
AI5분 읽기
DSPy 2.7 프로덕션 — 프롬프트 자동 최적화 실전 사례
DSPy 2.7로 분류 파이프라인 자동 최적화. 정확도 +9.2%p, 사람-튜닝 1주 vs MIPROv2 4시간, 비용 변화 솔직 공개.
#DSPy#Prompt#Optimization
2026.05.16
41
AI5분 읽기
Mamba SSM 모델 프로덕션 — Transformer 대체, 어디서 빠른가
Mamba-2/3 SSM 아키텍처 실측. 32K 컨텍스트 처리량 Transformer 대비 3.8배, 정확도 격차와 한계 명확히 정리.
#Mamba#SSM#LLM
2026.05.15
40
AI4분 읽기
vLLM 1.0 vs SGLang vs TGI — LLM 추론 서버 실측 비교
vLLM 1.0·SGLang·TGI 3대 LLM 추론 서버 실측. Llama 70B 처리량·레이턴시·메모리, 양자화 지원과 운영 부담을 워크로드별로 비교.
#vLLM#SGLang#TGI
2026.05.15
39
AI4분 읽기
Sonnet 4.7 코딩 벤치마크 — 사내 코드베이스 100문제 실측
SWE-bench 같은 표준 벤치 말고, 사내 실제 코드에서 100문제 골라 Claude Sonnet 4.7 vs Opus 4.7 vs GPT-5.5 비교.
#Claude#Benchmark#Coding
2026.05.13
38
AI6분 읽기
프롬프트 인젝션 방어 — 2026년 LLM 위협 모델 7가지와 방어 패턴
에이전트·툴 사용 시대의 프롬프트 인젝션 7가지 위협과 다층 방어. 입력 분리, 권한 격리, 검증, 모니터링 체크리스트.
#LLM#Security#Prompt Injection
2026.05.08