All Posts

  • Published on
    KServe로 LLM을 서빙할 때 자주 겪는 503과 scale-to-zero 콜드스타트 지연을 원인별로 분해해 진단·개선하는 실전 가이드입니다. Knative/queue-proxy, 프로브, 리소스, 모델 로딩·캐시까지 함께 최적화합니다.
  • Published on
    이미지 Pull 단계에서 발생하는 x509 인증서 오류는 대부분 노드의 CA 번들, 프록시/미러 레지스트리, containerd 설정 불일치에서 시작됩니다. 원인별로 빠르게 진단하고, EKS/온프레 환경에서 재발 방지까지 정리합니다.
  • Published on
    LangChain 스트리밍에서 토큰이 중복되거나 순서가 꼬이는 원인을 이벤트 재전송, 병렬 실행, 콜백 중복 등록 관점에서 분해합니다. 서버·클라이언트 양쪽에서 재현 가능한 방어 로직과 구현 예제를 제공합니다.
  • Published on
    OAuth2 PKCE 플로우에서 토큰 교환 시 400 invalid_grant가 나는 대표 원인을 케이스별로 분해하고, 서버·클라이언트에서 즉시 적용 가능한 점검/해결 방법과 재현 가능한 코드 예제를 정리합니다.
  • Published on
    ONNX Runtime에서 LLM을 INT4로 양자화해 메모리 사용량을 줄이고, 프리필·디코드 지연을 개선하는 실전 접근을 정리합니다. 모델 변환부터 실행 옵션, 병목 진단 체크리스트까지 한 번에 다룹니다.