기술노트 — AI·풀스택·인프라 실전 개발 지식 | 영삼넷

본문 바로가기

Llama 5 405B Multimodal — 자체 호스팅 비용·성능 벤치마크

Llama 5 405B 멀티모달의 자체 호스팅 인프라 비용과 처리량 측정. 8×H200 대비 4×B200 비교, API 대비 손익분기점.

#Llama#SelfHosting#Inference

Infra6분 읽기

Kubernetes 1.33 GPU 스케줄링 실전 가이드 — AI 워크로드 비용 60% 절감

Kubernetes 1.33의 GPU 스케줄링 & DRA(Dynamic Resource Allocation) GA를 활용하여 AI 추론 서버를 효율적으로 운영하는 방법을 실습합니다.

#Kubernetes#GPU#AI

Frontend1분 읽기

WebGPU — 브라우저에서 GPU 연산 활용하기

WebGPU API로 브라우저에서 고성능 그래픽과 범용 GPU 연산을 수행하는 방법.

#WebGPU#GPU#Performance