가드레일 (Guardrail)

안전

가드레일

Guardrail

AI의 입출력을 실시간으로 검사해서 유해 콘텐츠, 개인정보 유출, 형식 오류 등을 차단하는 안전 장치. 모델 자체의 안전성에 의존하지 않는 독립적인 방어 레이어다.

모델에게 "욕하지 마"라고 시스템 프롬프트에 적는 건 부탁이지 강제가 아니다. 가드레일은 모델 바깥에서 입출력을 검사하고 차단하는 독립적인 레이어다. 입력 단계에서 프롬프트 인젝션을 감지하고, 출력 단계에서 개인정보나 유해 콘텐츠를 필터링한다.

Claude Code에서 훅이 가드레일 역할을 한다. PreToolUse 훅으로 위험한 명령을 차단하고, PostToolUse 훅으로 출력을 검증한다. 프롬프트가 아니라 셸 스크립트로 실행되니까 100% 확실하게 동작한다.

API 레벨에서는 NVIDIA NeMo Guardrails나 Guardrails AI 프레임워크로 입출력 검증 파이프라인을 구축한다. 주제 이탈 감지, PII(개인식별정보) 필터링, 출력 형식 검증 같은 규칙을 코드로 정의해서 모델 호출 전후에 자동으로 적용한다.

하네스 엔지니어링 관점에서 가드레일은 에이전트를 감싸는 핵심 구성 요소 중 하나다. 시스템 프롬프트(소프트 제약) + 가드레일(하드 제약) + 훅(실행 시점 제약)을 겹겹이 쌓아서 에이전트의 안전성을 확보한다.

#안전장치#필터링