All Posts

  • Published on
    KServe와 Knative를 조합해 GPU 추론 서비스를 요청 기반으로 자동 확장하고, 유휴 시 0으로 스케일 다운하는 배포 패턴을 정리합니다. 실제 운영에서 자주 겪는 콜드스타트, 동시성, GPU 스케줄링 함정까지 함께 다룹니다.
  • Published on
    KServe InferenceService를 Knative 트래픽 스플리팅과 결합해 GPU 모델을 무중단으로 카나리 배포하는 방법을 정리합니다. 준비 체크리스트부터 YAML 예제, 관측·롤백·운영 함정까지 실전 기준으로 설명합니다.
  • Published on
    KServe 위에 vLLM을 올렸을 때 503이 터지거나 HPA가 전혀 스케일링하지 않는 문제는 대개 트래픽 라우팅, 프로브, 메트릭 파이프라인, 리소스 설계의 작은 불일치에서 시작됩니다. 현장에서 자주 밟는 7가지 원인과 재현·진단·해결 체크리스트를 정리합니다.