Tech Insights & Development

개발자의 시선이 머무는 곳

방대한 정보 속에서 실무에 꼭 필요한 핵심 원리를 선별합니다.단순한 코드 복사를 넘어, '왜''어떻게'에 집중하는 깊이 있는 통찰을 경험하세요.

Latest Logs

기술의 본질을 탐구하고 학습한 내용을 정제하여 공유합니다.더 나은 개발 생태계를 위해 엔지니어링 인사이트를 아카이빙합니다.

  • Published on
    RAG 검색 품질을 크게 해치지 않으면서 벡터DB 비용을 70%까지 줄이는 실전 튜닝 방법을 정리합니다. PQ(압축)와 HNSW(근사검색) 파라미터를 어떻게 잡아야 하는지, 측정 지표와 운영 체크리스트까지 포함합니다.
  • Published on
    BentoML로 패키징한 GPU 모델을 KServe로 롤링 배포할 때 자주 터지는 준비 상태 실패, GPU 점유 충돌, OOM, 트래픽 절체 지연을 원인별로 분해하고 재현·진단·해결까지 한 번에 정리합니다.
  • Published on
    KServe InferenceService와 Istio 트래픽 라우팅을 조합해 LLM 추론을 A/B 테스트와 카나리로 안전하게 배포하는 방법을 정리합니다. 가중치·헤더 기반 분기, 관측 지표, 롤백 전략까지 실전 관점으로 다룹니다.
  • Published on
    Milvus에서 IVF와 HNSW 인덱스를 RAG 워크로드에 맞게 튜닝해 검색 지연을 절반 수준으로 낮추는 실전 방법을 정리합니다. recall-지연 트레이드오프를 수치로 관리하는 체크리스트와 예제 코드까지 포함합니다.