Published on2026년 1월 1일RAG 평가 자동화 - Ragas+Qdrant로 품질·비용 최적화aiRagas로 RAG 품질을 정량화하고 Qdrant로 평가 데이터·실험을 관리해, 회귀를 빠르게 잡고 토큰 비용을 통제하는 자동화 파이프라인을 정리합니다.Read more →
Published on2026년 1월 1일RAG 검색품질 2배 - Qdrant HNSW 튜닝 실전aiQdrant의 HNSW 파라미터를 데이터 특성과 트래픽 목표에 맞춰 튜닝해 RAG 검색 품질을 끌어올리는 실전 가이드입니다. 재현 가능한 평가 지표, 인덱싱/서빙 설정, 운영 시 함정까지 한 번에 정리합니다.Read more →
Published on2026년 1월 1일Rust+Qdrant RAG 지연 2초→200ms 튜닝법aiRust로 RAG 파이프라인을 운영할 때 Qdrant 검색+재랭킹+LLM 호출로 2초 이상 걸리던 지연을 200ms대로 낮추는 실전 튜닝 체크리스트를 정리합니다.Read more →
Published on2026년 1월 1일SageMaker 실시간 엔드포인트 504 타임아웃 해결aiSageMaker 실시간 엔드포인트에서 504 타임아웃이 발생하는 대표 원인을 분해하고, 모델/컨테이너/네트워크/오토스케일링 관점에서 재현-진단-해결 순서로 정리합니다.Read more →
Published on2026년 1월 1일CoT 노출 없이 추론력↑ - Self-Consistency 실전aiSelf-Consistency는 여러 번 샘플링한 답을 합의(majority vote)로 선택해 추론 성능을 끌어올리는 기법입니다. CoT(Chain-of-Thought)를 사용자에게 노출하지 않으면서도 정확도와 강건성을 높이는 실전 적용 패턴을 정리합니다.Read more →