Published on2025년 12월 31일pgvector 인덱스 튜닝으로 RAG 검색 2배 빠르게aiPostgreSQL pgvector에서 HNSW/IVFFLAT 인덱스를 제대로 튜닝하면 RAG 검색 지연을 체감 수준으로 줄일 수 있습니다. 실무에서 바로 적용 가능한 파라미터, 쿼리 패턴, 측정 방법을 정리합니다.Read more →
Published on2025년 12월 31일PyTorch 2.1+ PT2E로 LLM 4bit 양자화 실전aiPyTorch 2.1+의 PT2E(Prepare/Convert-to-Export) 기반 양자화로 LLM을 4bit로 경량화하는 흐름과 코드, 함정(정확도/성능/배포)을 정리합니다.Read more →
Published on2025년 12월 31일PyTorch에서 TensorRT INT8로 3배 가속하기aiPyTorch 모델을 ONNX로 내보낸 뒤 TensorRT INT8 양자화로 추론을 3배까지 가속하는 실전 절차를 정리합니다. 캘리브레이션 데이터 준비, 엔진 빌드, 정확도·지연시간 검증, 운영 시 흔한 함정까지 한 번에 다룹니다.Read more →
Published on2025년 12월 31일Ray Serve 배포 시 OOM·지연 튐 원인과 해결aiRay Serve 운영에서 가장 흔한 장애인 OOM(메모리 초과)과 지연 튐(latency spike)을 재현 가능한 원인 단위로 분해하고, 리소스 설정·배치·모델 로딩·GC·오토스케일링 관점의 해결책을 코드와 함께 정리합니다.Read more →
Published on2025년 12월 31일Rust self-referential struct를 Pin으로 안전하게syntaxRust에서 self-referential struct가 왜 위험한지, 그리고 Pin/Unpin/PhantomPinned를 이용해 이동(moving)으로 인한 UB를 원천 차단하는 패턴을 정리합니다.Read more →