All Posts

  • Published on
    KServe에서 GPU 추론이 간헐적으로 503을 내는 원인은 대개 readiness 판정과 Knative 오토스케일의 상호작용에서 시작됩니다. GPU 워밍업, 프로브, 동시성, 스케일 정책을 함께 튜닝해 503을 줄이는 실전 체크리스트를 정리합니다.
  • Published on
    KServe에서 GPU 기반 LLM을 운영할 때 콜드스타트를 체감 0에 가깝게 줄이는 설계와 설정을 정리합니다. 노드/파드 워밍, 모델 로딩 최적화, 오토스케일링 튜닝, 장애·비용 트레이드오프까지 실전 관점으로 다룹니다.
  • Published on
    Kubernetes 기반 MSA에서 재시도·타임아웃·중복 요청으로 발생하는 중복결제를 멱등키로 차단하는 실전 설계를 정리합니다. API·DB·메시지·Ingress 레이어에서의 구현 패턴과 함정을 함께 다룹니다.