AI가 생성한 응답을 외부로 내보내기 전에 검사해서 유해 콘텐츠, 개인정보, 형식 오류 등을 제거하거나 차단하는 처리 단계. 모델 자체의 안전성을 보완하는 마지막 방어선이다.
모델이 시스템 프롬프트를 잘 따른다 해도 예상치 못한 응답이 나올 수 있다. 출력 필터링은 AI 응답이 사용자에게 도달하기 직전에 독립적으로 동작하는 검사 레이어다. 정규식으로 전화번호·이메일 패턴을 제거하거나, 별도 분류 모델로 유해성을 점수화하거나, 구조화된 출력(JSON 스키마)의 유효성을 검증하는 방식으로 동작한다.
Claude Code에서 훅은 출력 필터링의 구체적인 구현이다. PostToolUse 훅으로 AI가 실행하려는 명령의 결과를 가로채 검사할 수 있다. API 서버 레벨에서는 응답 스트리밍 도중에도 필터링이 가능한데, SSE 스트림을 중간에 잘라내거나 특정 패턴을 실시간으로 마스킹하는 방식으로 구현한다. 가드레일 프레임워크(NeMo Guardrails, Guardrails AI)를 쓰면 이런 필터링 파이프라인을 선언적으로 정의할 수 있다.