기술노트 — AI·풀스택·인프라 실전 개발 지식 | 영삼넷

본문 바로가기

Llama 5 405B Multimodal — 자체 호스팅 비용·성능 벤치마크

Llama 5 405B 멀티모달의 자체 호스팅 인프라 비용과 처리량 측정. 8×H200 대비 4×B200 비교, API 대비 손익분기점.

#Llama#SelfHosting#Inference

Speculative Decoding 프로덕션 — LLM 추론 2배 빠르게 만드는 법

draft 모델 + verifier 구조로 토큰 생성을 병렬화. n-gram, Medusa, EAGLE-2 비교와 vLLM 적용 실측 1.8~2.4배.

#LLM#Inference#Speculative

Mamba SSM 모델 프로덕션 — Transformer 대체, 어디서 빠른가

Mamba-2/3 SSM 아키텍처 실측. 32K 컨텍스트 처리량 Transformer 대비 3.8배, 정확도 격차와 한계 명확히 정리.