TECH NOTES
기술노트
현장에서 검증된 개발 지식을 기록합니다.
321
AI
Llama 5 405B Multimodal — 자체 호스팅 비용·성능 벤치마크
Llama 5 405B 멀티모달의 자체 호스팅 인프라 비용과 처리량 측정. 8×H200 대비 4×B200 비교, API 대비 손익분기점.
Infra
Kubernetes 1.33 GPU 스케줄링 실전 가이드 — AI 워크로드 비용 60% 절감
Kubernetes 1.33의 GPU 스케줄링 & DRA(Dynamic Resource Allocation) GA를 활용하여 AI 추론 서버를 효율적으로 운영하는 방법을 실습합니다.
Frontend
WebGPU — 브라우저에서 GPU 연산 활용하기
WebGPU API로 브라우저에서 고성능 그래픽과 범용 GPU 연산을 수행하는 방법.