Published on2026년 1월 1일Gemini API 429 쿼터 초과 대응 - 재시도·백오프aiGemini API에서 429(쿼터 초과·레이트 리밋)을 만났을 때, 단순 재시도가 아니라 지수 백오프·지터·동시성 제어로 안정적으로 복구하는 방법을 정리합니다.Read more →
Published on2026년 1월 1일KServe + Istio에서 GPU 모델 503·타임아웃 해결aiKServe InferenceService를 Istio 뒤에서 GPU로 서빙할 때 자주 터지는 503과 타임아웃을 원인별로 분해해 해결합니다. 콜드스타트, readiness, Envoy 타임아웃, 연결 재시도, 프로브 설정까지 실전 설정을 제공합니다.Read more →
Published on2026년 1월 1일OpenAI Responses API 스트리밍 끊김·재시도 설계aiResponses API 스트리밍에서 끊김이 발생해도 사용자 경험을 유지하는 재시도·복구 설계를 정리합니다. 이벤트 재조립, 타임아웃, 백오프, 멱등성, 관측까지 실전 패턴과 코드로 설명합니다.Read more →
Published on2026년 1월 1일PostgreSQL JSONB 인덱스가 안타는 이유 7가지aiJSONB에 인덱스를 만들었는데도 Seq Scan이 뜨는 이유는 대부분 연산자/타입/통계/선택도 불일치에서 시작됩니다. 실행계획으로 원인을 분류하고, 쿼리·인덱스·통계를 함께 손보는 7가지 체크리스트를 정리합니다.Read more →
Published on2026년 1월 1일파이썬 CNN·Transformer ONNX+TensorRT 10배 튜닝aiPyTorch 모델을 ONNX로 내보내고 TensorRT로 엔진화해 지연·메모리를 크게 줄이는 실전 튜닝 절차를 정리합니다. FP16/INT8, 다이내믹 셰이프, 프로파일링, 서빙 장애 포인트까지 한 번에 다룹니다.Read more →