All Posts

  • Published on
    Ray Serve 배포 직후 503이 뜨거나 로드밸런서 헬스체크가 실패하는 대표 원인 7가지를 진단 순서대로 정리했습니다. 로그·포트·라우팅·리소스·프로브 설정까지 재현 가능한 체크리스트와 코드 예제를 포함합니다.
  • Published on
    RDS PostgreSQL에서 replication lag이 갑자기 폭증할 때의 대표 원인(쓰기 폭주, I/O 병목, long transaction, vacuum 지연 등)과 CloudWatch/SQL로 진단하는 절차, 그리고 재발 방지 튜닝 체크리스트를 정리합니다.
  • Published on
    Self-Consistency는 CoT를 여러 번 샘플링해 다수결로 답을 고르는 간단하지만 강력한 신뢰도 향상 기법입니다. 실제 서비스에서 비용·지연·재현성까지 고려해 적용하는 체크리스트와 코드 패턴을 정리합니다.