All Posts

  • Published on
    pgvector 기반 RAG 검색이 느릴 때 IVFFlat 인덱스의 lists·probes·정렬/필터 전략을 어떻게 조정해야 하는지 정리합니다. EXPLAIN 분석부터 재색인, 운영 파라미터까지 실전 튜닝 흐름을 제공합니다.
  • Published on
    PyTorch에서 4bit 양자화(특히 bitsandbytes/NF4) 적용 시 자주 터지는 실패 패턴 7가지를 원인-재현-해결책으로 정리했습니다. CUDA/드라이버, dtype, 레이어 교체, 메모리, 정확도 저하까지 실전 체크리스트로 다룹니다.
  • Published on
    PyTorch에서 ONNX로 내보낸 뒤 TensorRT INT8 빌드가 실패하는 대표 원인 7가지를 증상·로그·해결책 중심으로 정리합니다. 캘리브레이션 데이터부터 ONNX 그래프 정리, QDQ 패턴, 플러그인, 동적 shape까지 실전 체크리스트를 제공합니다.