All Posts

  • Published on
    BentoML로 GPU 모델을 서빙할 때 VRAM이 점점 증가하는 문제를 재현·관측·원인분해하고, PyTorch 기반 서빙에서 흔한 누수 패턴을 코드로 차단하는 실전 방법을 정리합니다.
  • Published on
    로컬 LLM 추론 속도를 체감 2배까지 끌어올리는 핵심은 KV 캐시(프리필/디코드 분리)와 양자화(정확도-속도-메모리 균형) 튜닝입니다. llama.cpp·vLLM 기준으로 병목을 측정하고 안전하게 파라미터를 조정하는 실전 체크리스트를 정리합니다.
  • Published on
    EKS에서 nslookup/dig는 성공하지만 curl/SDK의 HTTPS만 실패하는 경우는 대개 egress 경로(NAT/라우팅), 보안그룹/NACL, 프록시, MTU, SNI/CA 번들, VPC 엔드포인트/네트워크 정책 문제로 수렴합니다. 이 글은 원인별로 빠르게 좁혀가는 진단 순서와 재현/해결 체크리스트를 제공합니다.