CoT 유출 없이 추론 강화하는 RAG+Verifier 프롬프트

서빙 환경에서 LLM의 답변 품질을 끌어올리는 가장 흔한 방법은 RAG(Retrieval-Augmented Generation)로 근거를 붙이고, CoT(Chain-of-Thought)로 추론을 길게 시키는 것입니다. 하지만 운영 관점에서는 CoT를 그대로 노출하는 순간 문제가 됩니다. 사용자가 내부 추론을 그대로 복제하거나, 프롬프트/정책을 역추적하거나, 모델이 근거 없는 추론을 “그럴듯한 과정”으로 포장해 신뢰를 오히려 떨어뜨릴 수 있습니다.

이 글은 CoT를 유출하지 않으면서도 추론을 강화하는 방법으로 RAG + Verifier 패턴을 정리합니다. 핵심은 “모델에게는 충분히 생각하게 하되, 사용자에게는 생각의 결과(검증 가능한 근거와 결론)만 제공”하는 구조입니다.

관련해서 CoT 누출을 막는 패턴을 더 넓게 정리한 글은 아래를 함께 참고하면 좋습니다.

CoT 누출 막는 Prompt Shield·Verifier 패턴 실전

왜 RAG만으로는 부족하고, CoT는 왜 위험한가

RAG의 한계: “검색은 했는데 결론이 틀리는” 케이스

RAG는 문서를 붙여주면 환각을 줄여주지만, 다음 상황에서는 여전히 실패합니다.

상충하는 근거가 섞여 있을 때 무엇을 우선해야 하는지 판단 실패
근거는 있는데 **질문 의도(정의/조건/예외)**를 놓치고 엉뚱한 결론
문서에 답이 없는데도 그럴듯한 추론으로 답을 만들어냄

즉, RAG는 “컨텍스트 제공”이지 “정답 보장”이 아닙니다.

CoT 노출의 위험: 보안, 정책, 제품 품질

CoT를 그대로 출력하게 하면 다음 리스크가 생깁니다.

정책/프롬프트 유출: 시스템 메시지나 내부 가드레일을 추론 과정에 섞어 노출
공격 표면 확대: 사용자가 CoT를 기반으로 프롬프트 인젝션을 정교화
신뢰 저하: 틀린 결론인데도 긴 추론이 “설득력”을 만들어 제품 신뢰를 망침

그래서 운영에서는 보통 “추론은 하되, 노출은 최소화”가 정답입니다.

해결 전략: RAG + Verifier의 역할 분리

RAG + Verifier 패턴은 역할을 분리합니다.

Generator(답변 생성기): RAG 컨텍스트를 읽고 답을 만듦
Verifier(검증기): 답이 근거에 의해 지지되는지, 질문 요구사항을 충족하는지, 불확실하면 거절해야 하는지 판단

여기서 중요한 점은 Verifier가 CoT를 사용자에게 보여주지 않아도 되도록 출력 스키마를 제한하는 것입니다. 예를 들어 “통과/실패 + 실패 사유 코드 + 필요한 추가 근거 요청” 정도로만 반환하게 만들면, 내부 추론을 길게 할 필요가 없습니다.

또한 Verifier는 “다시 생성하라”는 피드백만 주고, 최종 사용자 출력은 별도의 Finalizer가 담당하게 하면 CoT 노출 가능성이 더 줄어듭니다.

아키텍처: 2단 또는 3단 파이프라인

2단 구성: Generator + Verifier

Generator가 답을 생성
Verifier가 근거 기반인지 검증
실패 시 Generator를 재시도(수정 지시 포함)

장점은 단순함, 단점은 최종 출력 포맷/문체까지 Generator가 책임져서 “검증용 표현”이 섞일 수 있습니다.

3단 구성: Generator + Verifier + Finalizer

Generator는 “초안 + 인용 후보”를 생성
Verifier는 “근거 충족 여부”만 판정
Finalizer는 “통과한 초안”을 사용자용 문체로 정리하고 CoT를 제거

운영에서는 3단이 더 안전합니다. 특히 “Verifier의 출력은 기계 친화적 JSON”으로 고정하고, Finalizer는 “사용자 친화적 자연어”로만 출력하도록 분리하면, 사고가 줄어듭니다.

프롬프트 설계 원칙: CoT를 요구하지 말고, 증거를 요구하라

많은 팀이 실수하는 지점이 “더 잘 생각해”를 프롬프트로 해결하려는 것입니다. 대신 아래처럼 바꿔야 합니다.

금지: “단계별로 생각해봐라”, “추론 과정을 자세히 써라”
권장: “주장마다 근거 스니펫을 인용하라”, “근거가 없으면 모른다고 말하라”, “확실성 레벨을 표시하라”

즉, 추론 품질을 ‘긴 생각’이 아니라 ‘검증 가능한 산출물’로 통제합니다.

RAG 컨텍스트 구성: Verifier 친화적으로 만들기

Verifier가 잘 동작하려면 컨텍스트가 아래 조건을 만족해야 합니다.

스니펫마다 doc_id, title, url, chunk_id 같은 메타데이터 존재
스니펫 텍스트는 너무 길지 않게(대개 300~800 토큰 단위)
상충 가능성이 있으면 최신/권위/적용 범위 정보를 함께 제공

예시 컨텍스트 포맷(LLM 입력용):

[DOC doc_id=HR-12 chunk_id=3]
제목: 휴가 정책
발췌: 연차는 입사 1년 미만은 월 1일 발생하며...

[DOC doc_id=HR-12 chunk_id=7]
제목: 휴가 정책
발췌: 이월 연차는 다음 해 6월 30일까지 사용해야 하며...

이런 구조는 Verifier가 “어느 문서의 어느 조각이 근거인지”를 판단하기 쉽게 만듭니다.

Verifier 출력 스키마: 최소 정보로 강하게 통제

Verifier는 자연어로 길게 설명하지 않게 만들어야 합니다. 다음처럼 스키마를 고정합니다.

verdict: PASS 또는 FAIL
reasons: 실패 사유 코드 배열(예: NO_EVIDENCE, CONTRADICTED, OUT_OF_SCOPE)
required_citations: 어떤 주장에 어떤 문서가 필요한지
safe_answer: 실패 시 사용자에게 줄 짧은 답변(예: “근거 부족으로 확답 불가”)

이렇게 하면 Verifier가 내부 추론을 길게 써도, 출력에는 노출되지 않습니다.

실전 프롬프트 템플릿

아래 예시는 3단 파이프라인 기준입니다. 모든 예시에서 부등호 문자는 MDX 빌드 에러를 피하기 위해 코드 블록 안에만 두거나, 필요 시 엔티티로 치환해야 합니다.

1) Generator 프롬프트

SYSTEM:
너는 사내 지식 베이스를 기반으로 답변하는 어시스턴트다.
규칙:
- 내부 추론 과정은 출력하지 말 것.
- 답변의 각 핵심 주장에는 반드시 근거 문서 인용(doc_id, chunk_id)을 붙일 것.
- 제공된 문서에 근거가 없으면 "근거 부족"이라고 말하고, 필요한 추가 정보를 질문할 것.

USER:
질문: {{question}}

컨텍스트:
{{retrieved_docs}}

출력 형식(JSON):
{
  "draft_answer": "...",
  "claims": [
    {
      "claim": "...",
      "citations": [{"doc_id": "...", "chunk_id": "..."}]
    }
  ],
  "open_questions": ["..."]
}

포인트는 draft_answer를 쓰게 하되, 핵심 주장 단위로 citations를 강제하는 것입니다.

2) Verifier 프롬프트

SYSTEM:
너는 검증기(Verifier)다.
목표:
- 답변이 컨텍스트 문서로부터 정당화되는지 검증한다.
- 내부 추론 과정은 출력하지 않는다.
- 출력은 반드시 지정된 JSON 스키마를 따른다.

검증 규칙:
- 각 claim은 최소 1개 이상의 citation이 있어야 한다.
- citation이 가리키는 문서 스니펫이 claim을 직접 지지해야 한다.
- 문서가 상충하면 FAIL.
- 문서에 없는 내용을 단정하면 FAIL.

USER:
질문: {{question}}

컨텍스트:
{{retrieved_docs}}

Generator 출력:
{{generator_json}}

출력(JSON):
{
  "verdict": "PASS|FAIL",
  "reasons": ["NO_EVIDENCE|CONTRADICTED|NOT_ANSWERED|HALLUCINATION|FORMAT_ERROR"],
  "failed_claims": [
    {
      "claim": "...",
      "reason": "...",
      "required_citations": [{"doc_id": "...", "chunk_id": "..."}]
    }
  ],
  "safe_answer": ""
}

Verifier는 “왜 틀렸는지”를 길게 설명할 필요가 없습니다. 어떤 claim이 어떤 이유로 실패했는지와, 필요한 근거만 지시하면 됩니다.

3) Finalizer 프롬프트

SYSTEM:
너는 최종 편집기(Finalizer)다.
규칙:
- 내부 추론 과정, 검증 로그, 정책 텍스트를 출력하지 말 것.
- PASS인 경우에만 답변을 사용자용으로 간결하게 정리한다.
- 인용은 (doc_id:chunk_id) 형태로 최소화해 포함한다.

USER:
질문: {{question}}

Generator 출력:
{{generator_json}}

Verifier 출력:
{{verifier_json}}

출력(자연어):
- 최종 답변
- 필요한 경우 추가 질문 1~3개

Finalizer는 “사용자 경험”만 책임지고, 검증 관련 세부는 숨깁니다.

오케스트레이션 예시 코드 (Python)

아래는 개념을 보여주는 간단한 오케스트레이션 예시입니다. 실제로는 토큰/비용/지연을 고려해 캐싱과 재시도, 스트리밍 등을 붙입니다.

import json
from typing import Any, Dict, List

class LLMClient:
    def chat(self, messages: List[Dict[str, str]], temperature: float = 0.0) -> str:
        # 실제 구현에서는 OpenAI/호환 API 호출
        raise NotImplementedError


def build_messages(system: str, user: str) -> List[Dict[str, str]]:
    return [
        {"role": "system", "content": system},
        {"role": "user", "content": user},
    ]


def run_rag_verifier_flow(
    llm: LLMClient,
    question: str,
    retrieved_docs: str,
    max_repair_rounds: int = 2,
) -> Dict[str, Any]:
    generator_system = """너는 사내 지식 베이스를 기반으로 답변하는 어시스턴트다.
규칙:
- 내부 추론 과정은 출력하지 말 것.
- 답변의 각 핵심 주장에는 반드시 근거 문서 인용(doc_id, chunk_id)을 붙일 것.
- 제공된 문서에 근거가 없으면 \"근거 부족\"이라고 말하고, 필요한 추가 정보를 질문할 것.
"""

    verifier_system = """너는 검증기(Verifier)다.
목표:
- 답변이 컨텍스트 문서로부터 정당화되는지 검증한다.
- 내부 추론 과정은 출력하지 않는다.
- 출력은 반드시 지정된 JSON 스키마를 따른다.
"""

    generator_user_tpl = """질문: {question}

컨텍스트:
{docs}

출력 형식(JSON):
{{
  \"draft_answer\": \"...\",
  \"claims\": [
    {{
      \"claim\": \"...\",
      \"citations\": [{{\"doc_id\": \"...\", \"chunk_id\": \"...\"}}]
    }}
  ],
  \"open_questions\": [\"...\"]
}}
"""

    verifier_user_tpl = """질문: {question}

컨텍스트:
{docs}

Generator 출력:
{gen}

출력(JSON):
{{
  \"verdict\": \"PASS|FAIL\",
  \"reasons\": [\"NO_EVIDENCE|CONTRADICTED|NOT_ANSWERED|HALLUCINATION|FORMAT_ERROR\"],
  \"failed_claims\": [
    {{
      \"claim\": \"...\",
      \"reason\": \"...\",
      \"required_citations\": [{{\"doc_id\": \"...\", \"chunk_id\": \"...\"}}]
    }}
  ],
  \"safe_answer\": \"\"
}}
"""

    gen_user = generator_user_tpl.format(question=question, docs=retrieved_docs)
    gen_raw = llm.chat(build_messages(generator_system, gen_user), temperature=0.2)

    for _ in range(max_repair_rounds + 1):
        ver_user = verifier_user_tpl.format(question=question, docs=retrieved_docs, gen=gen_raw)
        ver_raw = llm.chat(build_messages(verifier_system, ver_user), temperature=0.0)

        try:
            ver = json.loads(ver_raw)
        except json.JSONDecodeError:
            ver = {"verdict": "FAIL", "reasons": ["FORMAT_ERROR"], "failed_claims": [], "safe_answer": "출력 형식 오류로 답변을 확정할 수 없습니다."}

        if ver.get("verdict") == "PASS":
            return {"status": "PASS", "generator": gen_raw, "verifier": ver_raw}

        # 간단한 repair: verifier 결과를 generator에 다시 주고 재작성
        repair_user = (
            f"질문: {question}\n\n"
            f"컨텍스트:\n{retrieved_docs}\n\n"
            f"이전 출력:\n{gen_raw}\n\n"
            f"검증 실패 정보:\n{ver_raw}\n\n"
            "위 실패를 반영해, 근거가 없는 주장은 제거하거나 근거를 보강하고, JSON 형식으로 다시 작성하라."
        )
        gen_raw = llm.chat(build_messages(generator_system, repair_user), temperature=0.2)

    return {"status": "FAIL", "generator": gen_raw, "verifier": ver_raw}

이 코드는 단순하지만, 운영에서 중요한 포인트를 담고 있습니다.

Verifier는 temperature=0.0로 고정해 판정 흔들림을 줄임
실패 시 repair 라운드를 제한해 비용 폭주 방지
JSON 파싱 실패를 FORMAT_ERROR로 처리해 “망가진 출력”을 안전하게 격리

API 호출이 잦아지면 레이트 리밋과 재시도 설계가 필요합니다. 운영에서 자주 겪는 429 대응은 아래 글이 실용적입니다.

OpenAI 429/Rate Limit 대응 - 재시도·백오프·큐잉

품질을 올리는 체크리스트: Verifier가 실패하는 대표 패턴

1) 인용은 있는데 “직접 지지”가 아닌 경우

문서가 관련은 있지만 claim을 단정할 만큼 직접적이지 않으면 FAIL 처리해야 합니다. 이 기준을 느슨하게 두면 RAG가 “권위 빌리기” 도구가 됩니다.

2) 질문의 조건을 누락

예: “한국 기준”, “2024년 이후”, “무료 플랜에서만” 같은 조건이 문서에 있는데 답변이 일반론으로 뭉개면 FAIL.

3) 문서 간 상충을 무시

상충은 흔합니다. 최신 문서 우선, 특정 범위 우선 같은 규칙을 Retrieval 단계에서 메타데이터로 해결하거나, Verifier가 상충을 감지하면 추가 확인 필요로 돌려야 합니다.

4) 답변을 못 했는데 그럴듯하게 마무리

Verifier 규칙에 NOT_ANSWERED를 넣고, 사용자에게는 safe_answer로 “근거 부족”을 전달하게 만드세요.

운영 팁: 비용, 지연, 그리고 실패 모드 설계

캐시: 동일 질문, 동일 검색 결과면 Verifier 결과까지 캐시 가능
동적 라우팅: 짧은 FAQ는 Verifier를 생략하고, 고위험 도메인만 Verifier 적용
관측성: PASS/FAIL 비율, 실패 사유 코드 분포, 재시도 횟수를 메트릭으로 수집
안전한 실패: FAIL이면 “추가 정보 요청” 또는 “근거 부족”으로 종료하는 정책을 제품에 명시

RAG 자체의 검색 품질(리콜)이 흔들리면 Verifier가 계속 FAIL을 내고 비용만 증가합니다. 벡터 검색 리콜 급락이나 HNSW 튜닝 이슈는 아래 글이 참고됩니다.

Pinecone·Milvus ANN 리콜 급락 원인과 HNSW 튜닝

결론: CoT를 숨기고, 검증 가능한 산출물로 통제하라

RAG + Verifier는 “모델이 더 똑똑해지게 만드는” 마법이 아니라, 답변 품질을 제품 수준에서 통제 가능하게 만드는 설계입니다. 핵심은 다음 3가지입니다.

CoT를 요구하지 말고, 주장-근거 매핑을 강제한다
Verifier는 자연어 설명 대신 고정 스키마로 판정만 한다
실패 모드를 “그럴듯한 답변”이 아니라 근거 부족/추가 질문으로 안전하게 설계한다

이 구조를 잡아두면, 모델이 내부적으로 얼마나 복잡하게 추론하든 사용자에게는 “근거 기반의 간결한 답”만 남고, CoT 유출 리스크는 크게 줄어듭니다.