Published on2026년 1월 26일BentoML GPU 서빙에서 VRAM 누수 잡는 법aiBentoML로 GPU 모델을 서빙할 때 VRAM이 점점 증가하는 문제를 재현·관측·원인분해하고, PyTorch 기반 서빙에서 흔한 누수 패턴을 코드로 차단하는 실전 방법을 정리합니다.Read more →
Published on2026년 1월 26일로컬 LLM 속도 2배 - KV 캐시·양자화 튜닝ai로컬 LLM 추론 속도를 체감 2배까지 끌어올리는 핵심은 KV 캐시(프리필/디코드 분리)와 양자화(정확도-속도-메모리 균형) 튜닝입니다. llama.cpp·vLLM 기준으로 병목을 측정하고 안전하게 파라미터를 조정하는 실전 체크리스트를 정리합니다.Read more →
Published on2026년 1월 26일EKS에서 Pod DNS는 되는데 외부 HTTPS만 실패할 때aiEKS에서 nslookup/dig는 성공하지만 curl/SDK의 HTTPS만 실패하는 경우는 대개 egress 경로(NAT/라우팅), 보안그룹/NACL, 프록시, MTU, SNI/CA 번들, VPC 엔드포인트/네트워크 정책 문제로 수렴합니다. 이 글은 원인별로 빠르게 좁혀가는 진단 순서와 재현/해결 체크리스트를 제공합니다.Read more →
Published on2026년 1월 26일EKS Pod가 Pending(Insufficient memory)일 때 점검법aiEKS에서 Pod가 Pending 상태로 멈추며 Insufficient memory 이벤트가 뜰 때, 원인을 빠르게 분류하고 재발을 막는 실전 점검 순서를 정리합니다.Read more →
Published on2026년 1월 26일KServe vLLM 배포에서 504·OOM 잡는 HPA 튜닝aiKServe 위에 vLLM을 올렸을 때 자주 터지는 504 타임아웃과 GPU OOM을 HPA/리소스/서빙 파라미터 관점에서 재현하고, 실전 튜닝 절차와 예시 매니페스트로 정리합니다.Read more →