All Posts

  • Published on
    pgvector의 HNSW 인덱스를 RAG 워크로드에 맞게 튜닝해 p95 응답 시간을 절반 수준으로 낮추는 실전 가이드입니다. `m`, `ef_construction`, `ef_search`와 쿼리 패턴·필터링·VACUUM/ANALYZE까지 함께 최적화합니다.
  • Published on
    PyTorch 2에서 QAT(Quantization Aware Training)로 INT8 양자화를 적용해 추론 속도를 끌어올리는 실전 절차를 정리합니다. FX Graph Mode 기반으로 준비부터 학습, 변환, 벤치마킹, 배포 함정까지 한 번에 다룹니다.