Published on2026년 2월 2일KServe로 GPU 모델 롤링업데이트 - 503 0건 만들기aiKServe에서 GPU 추론 모델을 롤링 업데이트할 때 503을 0건에 가깝게 만드는 실전 설정과 운영 체크리스트를 정리합니다. readiness, preStop, canary, scale-down 지연, 워밍업을 조합해 무중단에 근접한 배포를 구현합니다.Read more →
Published on2026년 2월 2일KServe+Istio 카나리 배포 - 503·드리프트 대응aiKServe InferenceService와 Istio 트래픽 분할로 모델 카나리 배포를 구성하고, 실전에서 자주 터지는 503 원인(리비전 준비, mTLS, 타임아웃, 스케일링)과 모델 드리프트 감지·롤백 전략을 정리합니다.Read more →
Published on2026년 2월 2일KServe+Seldon으로 GPU 모델 롤링배포·카나리aiKServe와 Seldon을 조합해 GPU 추론 모델을 무중단 롤링 배포하고 카나리 트래픽 분산으로 안전하게 검증하는 실전 패턴을 정리합니다.Read more →
Published on2026년 2월 2일KServe로 vLLM 배포 - OOM·지연 3단계 해결aiKServe 위에 vLLM을 배포할 때 가장 흔한 장애인 OOM과 지연 급증을 3단계로 분해해 해결합니다. 메모리 예산 수립부터 KServe 프로브·오토스케일·배치 설정까지 실전 체크리스트와 예제를 제공합니다.Read more →
Published on2026년 2월 2일LangChain 스트리밍 끊김·중복 토큰 버그 디버깅aiLangChain 스트리밍에서 토큰이 끊기거나 중복되는 현상을 재현하고, 원인별로 관측 포인트와 해결 패턴을 정리합니다. 콜백/큐/재시도/전송 계층까지 단계적으로 디버깅합니다.Read more →