Published on2026년 2월 17일Pinecone·Milvus RAG 할루시네이션 줄이는 임베딩 평가법aiRAG 할루시네이션의 상당수는 LLM이 아니라 검색(임베딩·인덱스·리랭킹) 품질에서 시작됩니다. Pinecone·Milvus에서 재현 가능한 임베딩 평가 지표와 실험 설계를 통해 검색 실패를 줄이는 방법을 정리합니다.Read more →
Published on2026년 2월 17일PyTorch 2.2 PT2E INT8 양자화 오류 해결 가이드aiPyTorch 2.2의 PT2E(Export 기반) INT8 양자화에서 자주 터지는 오류를 원인별로 분류하고, export·prepare·convert·backend 단계에서의 실전 해결책을 코드로 정리합니다.Read more →
Published on2026년 2월 17일PyTorch 2.x PT2E INT8 양자화 실패 원인 7가지aiPyTorch 2.x의 PT2E(Export 기반) INT8 양자화가 실패하는 대표 원인 7가지를 증상별로 정리하고, 재현 가능한 점검 코드와 우회/해결 전략을 제공합니다.Read more →
Published on2026년 2월 17일Transformers 로컬 LLM, CUDA OOM 없이 4bit 가속aiHugging Face Transformers에서 bitsandbytes 4bit 양자화로 로컬 LLM을 CUDA OOM 없이 구동하는 실전 설정을 정리합니다. 메모리 절감 포인트, 흔한 OOM 원인, 디버깅 체크리스트까지 포함합니다.Read more →
Published on2026년 2월 17일Transformers 로컬 LLM OOM - 4bit+KV 캐시 튜닝aiTransformers로 로컬 LLM을 돌리다 OOM이 나는 핵심 원인(KV 캐시)과 4bit 양자화·캐시 튜닝으로 메모리를 줄이는 실전 설정을 정리합니다.Read more →