All Posts

  • Published on
    Seldon Core에서 GPU 추론 서버를 운영할 때 필요한 롤링 배포와 카나리 릴리스를 실전 관점으로 정리합니다. 모델 버전 전환, 트래픽 분할, 헬스체크·오토스케일·장애 대응까지 한 번에 연결합니다.
  • Published on
    Spring Boot 3 Actuator와 Micrometer 지표를 이용해 p99 지연을 ‘어디서’ 발생하는지 쪼개 추적하는 실전 접근을 정리합니다. HTTP, 스레드/커넥션 풀, DB, GC/CPU 병목을 단계적으로 좁히는 방법을 다룹니다.
  • Published on
    Stable Diffusion에서 VRAM OOM을 피하면서도 체감 속도를 2배까지 끌어올리는 실전 설정을 정리합니다. WebUI/ComfyUI와 diffusers 공통으로 적용 가능한 메모리·속도 튜닝 체크리스트를 제공합니다.