Skip to main content
가드레일은 AI와 사용자 간의 대화에서 입력과 출력을 검증하는 보안 계층입니다. 민감한 개인정보 유출을 방지하고, 부적절한 콘텐츠를 필터링하여 기업 환경에서 AI를 안전하게 사용할 수 있도록 합니다.

가드레일이란?

가드레일은 규칙 기반 탐지와 LLM 기반 판정을 결합하여 대화의 안전성을 보장합니다.

주요 기능

기능설명
PII 탐지이메일, 신용카드, IP 주소, MAC 주소, URL, API 키 등 개인정보 감지
커스텀 패턴정규식으로 사용자 정의 패턴 탐지 (사번, 문서번호 등)
금지 단어특정 단어/문구 포함 시 필터링
LLM 기반 판정AI를 활용한 의미 기반 콘텐츠 검증 (LLM-as-a-Judge)

활용 사례

  • 개인정보 보호: 고객 이메일, 전화번호, 신용카드 정보가 AI에 노출되지 않도록 방지
  • 보안 강화: API 키, 비밀번호, 인증 토큰 등 민감한 자격 증명 탐지
  • 콘텐츠 필터링: 부적절한 표현이나 금지된 주제 차단
  • 규정 준수: GDPR, PIPA 등 산업별 규정에 따른 데이터 처리

가드레일 목록

워크스페이스 > 가드레일에서 모든 가드레일을 확인할 수 있습니다.
요소설명
이름가드레일 식별 이름
설명가드레일 용도 설명
LLM 배지LLM 기반 탐지 활성화 여부 표시
작성자가드레일을 생성한 사용자
수정일마지막 수정 시점

가드레일 생성

1

기본 정보 입력

워크스페이스 > 가드레일에서 우측 상단의 + 버튼을 클릭합니다.
필드설명예시
이름가드레일 이름”고객정보 보호”
설명용도 설명”고객 개인정보 유출 방지”
공개 범위접근 권한 설정비공개 / 팀 공유
저장하면 가드레일 편집 화면으로 이동합니다.
2

PII 탐지 유형 선택

편집 화면에서 미리 정의된 개인정보 유형을 선택합니다.
PII 유형설명예시
이메일이메일 주소 탐지user@example.com
신용카드신용카드 번호 (Luhn 검증 포함)1234-5678-9012-3456
IP 주소IPv4 주소 탐지192.168.1.1
MAC 주소MAC 주소 탐지00:1A:2B:3C:4D:5E
URL웹 주소 탐지https://example.com
API 키API 키 패턴 탐지sk-xxxxxxxx
3

처리 전략 설정

민감한 정보가 탐지되었을 때 처리 방식을 선택합니다.
전략설명결과 예시
차단 (Block)메시지 전체 차단”민감한 정보가 감지되어 처리할 수 없습니다”
삭제 (Redact)민감 정보를 라벨로 대체”연락처: [REDACTED_EMAIL]
마스킹 (Mask)일부 문자만 표시j***@***.com”, “****-****-****-1234
해시 (Hash)해시값으로 변환”연락처: <email_hash:a1b2c3d4e5f6>
로그만 기록 (Log Only)차단 없이 로그만 기록원본 그대로 전달
도입 초기에는 로그만 기록 전략으로 시작하여 탐지 현황을 파악한 후, 점진적으로 삭제 또는 차단으로 강화하세요.
4

커스텀 패턴 추가 (선택)

정규식으로 사용자 정의 패턴을 추가합니다.
이름패턴용도
사번EMP-\d{6}사원번호 탐지
내부 문서번호DOC-[A-Z]{2}-\d{4}문서번호 탐지
프로젝트 코드PRJ-\d{4}프로젝트 코드 탐지
5

금지 단어 등록 (선택)

특정 단어나 문구가 포함된 메시지를 필터링합니다. 예: 경쟁사 이름, 비밀 프로젝트명, 내부 코드명 등을 등록합니다.
6

적용 범위 설정

가드레일이 적용되는 시점을 선택합니다.
옵션설명
입력 검증사용자 메시지에 적용
출력 검증AI 응답에 적용
보안 중심: 입력 + 출력 모두 검증 권장. 성능 중심: 입력만 검증 (응답 지연 최소화).
7

저장

저장 버튼을 클릭하여 설정을 저장합니다.

LLM 기반 탐지

규칙으로 감지하기 어려운 복잡한 패턴을 AI가 판단합니다. LLM-as-a-Judge 방식으로, 별도의 LLM 모델이 메시지의 적합성을 판정합니다.

설정 항목

항목설명
활성화LLM 기반 탐지 사용 여부 토글
모델판정에 사용할 LLM 모델 선택
프롬프트판단 기준을 정의하는 프롬프트
허용 예시PASS로 판정되어야 하는 메시지 예시
차단 예시BLOCK으로 판정되어야 하는 메시지 예시
입력 적용사용자 입력에 LLM Judge 적용 여부
출력 적용AI 응답에 LLM Judge 적용 여부

프롬프트 작성 예시

당신은 콘텐츠 검토 담당자입니다. 다음 메시지가 기업 보안 정책에 적합한지 판단하세요.

## 차단해야 하는 경우
- 기밀 정보 요청 (재무 데이터, 인사 정보 등)
- 시스템 해킹이나 보안 우회 방법 질문
- 불법적이거나 비윤리적인 행동 요청

## 허용하는 경우
- 일반적인 업무 질문
- 공개된 정보에 대한 문의
- 제품/서비스 관련 질문

메시지가 적합하면 "PASS", 부적합하면 "BLOCK"을 반환하세요.
LLM Judge는 추가 LLM 호출이 발생하므로 응답 시간이 증가합니다. 성능이 중요한 경우 규칙 기반 탐지만 사용하거나, 빠른 모델을 Judge로 선택하세요.

가드레일 테스트

가드레일 설정 화면에서 실제 텍스트로 바로 테스트할 수 있습니다.
  1. 테스트할 텍스트를 입력합니다
  2. 테스트 버튼을 클릭합니다
  3. 결과를 확인합니다: 탐지된 항목, 처리된 텍스트, 차단 여부
입력전략결과
”제 이메일은 test@example.com입니다”삭제”제 이메일은 [REDACTED_EMAIL]입니다"
"카드번호: 1234-5678-9012-3456”마스킹”카드번호: ****-****-****-3456"
"API 키: sk-abc123def456”해시”API 키: a1b2c3d4..."
"경쟁사X 내부 자료 분석해줘”차단”민감한 정보가 감지되어 처리할 수 없습니다”

에이전트에 가드레일 연결

1

에이전트 편집 화면 열기

워크스페이스 > 에이전트에서 대상 에이전트의 편집 화면을 엽니다.
2

가드레일 선택

가드레일 섹션에서 적용할 가드레일을 선택합니다. 하나의 에이전트에 여러 가드레일을 적용할 수 있으며, 모든 가드레일을 순차적으로 통과해야 메시지가 처리됩니다.
3

저장

에이전트 설정을 저장합니다. 이후 해당 에이전트와의 모든 대화에 가드레일이 적용됩니다.

파일 업로드 가드레일

업로드되는 파일에 대한 보안 검사 기능입니다. 관리자 > 설정 > File Guardrails 탭에서 구성합니다.
항목설명
EXIF 메타데이터 제거이미지 파일에서 위치 정보, 카메라 정보 등 EXIF 데이터를 자동 제거
매크로 감지Office 문서(DOCX, XLSX, PPTX)에서 매크로 포함 여부를 검사하고 차단
NSFW 감지이미지 파일에서 부적절한 콘텐츠를 AI 기반으로 감지
문서 분류업로드 문서를 자동 분류하여 민감도 레벨 태깅

모니터링 연동

트레이싱 자동 기록

가드레일이 민감 정보를 탐지하면 해당 이벤트가 메시지 트레이스에 자동으로 기록됩니다.
기록 항목설명
Run 타입guardrail
Run 이름guardrail:가드레일이름
Inputs탐지 유형, 원본 내용 (일부)
Outputs처리 전략, 탐지 상세, 가드레일 이름

가드레일 로그

관리자 > 모니터링 > 가드레일 로그에서 모든 탐지 이벤트를 전용 로그로 조회할 수 있습니다.
필터설명
기간1시간 ~ 30일, 사용자 지정
처리 전략차단, 삭제, 마스킹, 해시
탐지 유형PII, 금지 단어, LLM Judge
사용자특정 사용자 필터
로그 항목을 클릭하면 상세 정보(원본 내용, 처리 후 내용, 탐지 시각 등)를 확인할 수 있으며, 트레이스 버튼으로 해당 메시지의 전체 처리 맥락을 볼 수 있습니다.
가드레일 로그에 대한 상세 내용은 가드레일 로그 문서를 참고하세요.

모범 사례

  1. 로그만 기록으로 시작하여 탐지 현황 파악
  2. 오탐(false positive) 패턴 확인 및 조정
  3. 삭제(Redact) 전략으로 전환
  4. 안정화 후 필요한 항목에 차단(Block) 적용

문제 해결

  1. 커스텀 패턴의 정규식 범위를 축소합니다
  2. 금지 단어 목록을 정제합니다
  3. LLM Judge에 허용 케이스 예시를 추가합니다
  1. 누락된 PII 유형을 추가합니다
  2. 커스텀 패턴으로 새 정규식을 등록합니다
  3. LLM Judge를 활성화하고 차단 예시를 추가합니다
  1. LLM Judge를 비활성화하고 규칙 기반만 사용합니다
  2. 출력 검증을 비활성화합니다
  3. 더 빠른 모델을 Judge 모델로 선택합니다

다음 단계

에이전트에 가드레일 적용

생성한 가드레일을 에이전트에 연결합니다

가드레일 로그 확인

탐지 이벤트 로그를 조회하고 분석합니다