All Posts

  • Published on
    체인 오브 쏘트(CoT) 노출을 줄이면서도 품질 좋은 결과를 받는 핵심은 ‘추론은 내부로, 출력은 요약으로’입니다. OpenAI Responses API에서 요약 전용 출력 패턴과 서버 측 가드레일을 조합해 CoT 누출 리스크를 낮추는 방법을 정리합니다.
  • Published on
    CoT를 노출하지 않고도 모델의 추론 품질을 끌어올리는 DPO·RLAIF 기반 튜닝 전략을 정리합니다. 데이터 설계부터 학습 파이프라인, 운영 시 안전장치까지 실전 관점으로 다룹니다.
  • Published on
    Rust와 Tantivy로 RAG의 1차 후보 검색(lexical)을 최적화해 P95 지연을 3배 가까이 줄이는 튜닝 포인트를 정리합니다. 인덱스 설계, 쿼리 구조, 캐시·병렬화·세그먼트 병합까지 실전 코드로 설명합니다.