All Posts

  • Published on
    TypeScript 5.6에서 달라진 추론의 핵심을 실전 코드로 정리합니다. 더 엄격해진 판단 기준과 함께, 기존 코드가 왜 갑자기 에러가 나는지까지 쉽게 설명합니다.
  • Published on
    vLLM을 KServe로 서빙할 때 가장 흔한 장애인 GPU OOM과 P95 지연을 동시에 줄이는 실전 튜닝 포인트를 정리합니다. 메모리 예산, KV 캐시, 동시성, 라우팅·오토스케일 관점에서 재현 가능한 설정과 체크리스트를 제공합니다.
  • Published on
    AutoGPT가 장시간 실행되며 메모리/스토리지가 폭주하는 문제를 Redis TTL과 대화 요약(압축)으로 제어하는 방법을 정리합니다. 운영 환경에서 관측·정책·구현까지 한 번에 적용할 수 있게 코드와 체크리스트를 제공합니다.