가드레일이란?
가드레일은 규칙 기반 탐지와 LLM 기반 판정을 결합하여 대화의 안전성을 보장합니다.주요 기능
| 기능 | 설명 |
|---|---|
| PII 탐지 | 이메일, 신용카드, IP 주소, MAC 주소, URL, API 키 등 개인정보 감지 |
| 커스텀 패턴 | 정규식으로 사용자 정의 패턴 탐지 (사번, 문서번호 등) |
| 금지 단어 | 특정 단어/문구 포함 시 필터링 |
| LLM 기반 판정 | AI를 활용한 의미 기반 콘텐츠 검증 (LLM-as-a-Judge) |
활용 사례
- 개인정보 보호: 고객 이메일, 전화번호, 신용카드 정보가 AI에 노출되지 않도록 방지
- 보안 강화: API 키, 비밀번호, 인증 토큰 등 민감한 자격 증명 탐지
- 콘텐츠 필터링: 부적절한 표현이나 금지된 주제 차단
- 규정 준수: GDPR, PIPA 등 산업별 규정에 따른 데이터 처리
가드레일 목록
워크스페이스 > 가드레일에서 모든 가드레일을 확인할 수 있습니다.| 요소 | 설명 |
|---|---|
| 이름 | 가드레일 식별 이름 |
| 설명 | 가드레일 용도 설명 |
| LLM 배지 | LLM 기반 탐지 활성화 여부 표시 |
| 작성자 | 가드레일을 생성한 사용자 |
| 수정일 | 마지막 수정 시점 |
가드레일 생성
기본 정보 입력
워크스페이스 > 가드레일에서 우측 상단의 + 버튼을 클릭합니다.
저장하면 가드레일 편집 화면으로 이동합니다.
| 필드 | 설명 | 예시 |
|---|---|---|
| 이름 | 가드레일 이름 | ”고객정보 보호” |
| 설명 | 용도 설명 | ”고객 개인정보 유출 방지” |
| 공개 범위 | 접근 권한 설정 | 비공개 / 팀 공유 |
PII 탐지 유형 선택
편집 화면에서 미리 정의된 개인정보 유형을 선택합니다.
| PII 유형 | 설명 | 예시 |
|---|---|---|
| 이메일 | 이메일 주소 탐지 | user@example.com |
| 신용카드 | 신용카드 번호 (Luhn 검증 포함) | 1234-5678-9012-3456 |
| IP 주소 | IPv4 주소 탐지 | 192.168.1.1 |
| MAC 주소 | MAC 주소 탐지 | 00:1A:2B:3C:4D:5E |
| URL | 웹 주소 탐지 | https://example.com |
| API 키 | API 키 패턴 탐지 | sk-xxxxxxxx |
처리 전략 설정
민감한 정보가 탐지되었을 때 처리 방식을 선택합니다.
| 전략 | 설명 | 결과 예시 |
|---|---|---|
| 차단 (Block) | 메시지 전체 차단 | ”민감한 정보가 감지되어 처리할 수 없습니다” |
| 삭제 (Redact) | 민감 정보를 라벨로 대체 | ”연락처: [REDACTED_EMAIL]” |
| 마스킹 (Mask) | 일부 문자만 표시 | ”j***@***.com”, “****-****-****-1234” |
| 해시 (Hash) | 해시값으로 변환 | ”연락처: <email_hash:a1b2c3d4e5f6>” |
| 로그만 기록 (Log Only) | 차단 없이 로그만 기록 | 원본 그대로 전달 |
커스텀 패턴 추가 (선택)
정규식으로 사용자 정의 패턴을 추가합니다.
| 이름 | 패턴 | 용도 |
|---|---|---|
| 사번 | EMP-\d{6} | 사원번호 탐지 |
| 내부 문서번호 | DOC-[A-Z]{2}-\d{4} | 문서번호 탐지 |
| 프로젝트 코드 | PRJ-\d{4} | 프로젝트 코드 탐지 |
적용 범위 설정
가드레일이 적용되는 시점을 선택합니다.
| 옵션 | 설명 |
|---|---|
| 입력 검증 | 사용자 메시지에 적용 |
| 출력 검증 | AI 응답에 적용 |
보안 중심: 입력 + 출력 모두 검증 권장. 성능 중심: 입력만 검증 (응답 지연 최소화).
LLM 기반 탐지
규칙으로 감지하기 어려운 복잡한 패턴을 AI가 판단합니다. LLM-as-a-Judge 방식으로, 별도의 LLM 모델이 메시지의 적합성을 판정합니다.설정 항목
| 항목 | 설명 |
|---|---|
| 활성화 | LLM 기반 탐지 사용 여부 토글 |
| 모델 | 판정에 사용할 LLM 모델 선택 |
| 프롬프트 | 판단 기준을 정의하는 프롬프트 |
| 허용 예시 | PASS로 판정되어야 하는 메시지 예시 |
| 차단 예시 | BLOCK으로 판정되어야 하는 메시지 예시 |
| 입력 적용 | 사용자 입력에 LLM Judge 적용 여부 |
| 출력 적용 | AI 응답에 LLM Judge 적용 여부 |
프롬프트 작성 예시
가드레일 테스트
가드레일 설정 화면에서 실제 텍스트로 바로 테스트할 수 있습니다.- 테스트할 텍스트를 입력합니다
- 테스트 버튼을 클릭합니다
- 결과를 확인합니다: 탐지된 항목, 처리된 텍스트, 차단 여부
| 입력 | 전략 | 결과 |
|---|---|---|
| ”제 이메일은 test@example.com입니다” | 삭제 | ”제 이메일은 [REDACTED_EMAIL]입니다" |
| "카드번호: 1234-5678-9012-3456” | 마스킹 | ”카드번호: ****-****-****-3456" |
| "API 키: sk-abc123def456” | 해시 | ”API 키: a1b2c3d4..." |
| "경쟁사X 내부 자료 분석해줘” | 차단 | ”민감한 정보가 감지되어 처리할 수 없습니다” |
에이전트에 가드레일 연결
파일 업로드 가드레일
업로드되는 파일에 대한 보안 검사 기능입니다. 관리자 > 설정 > File Guardrails 탭에서 구성합니다.| 항목 | 설명 |
|---|---|
| EXIF 메타데이터 제거 | 이미지 파일에서 위치 정보, 카메라 정보 등 EXIF 데이터를 자동 제거 |
| 매크로 감지 | Office 문서(DOCX, XLSX, PPTX)에서 매크로 포함 여부를 검사하고 차단 |
| NSFW 감지 | 이미지 파일에서 부적절한 콘텐츠를 AI 기반으로 감지 |
| 문서 분류 | 업로드 문서를 자동 분류하여 민감도 레벨 태깅 |
모니터링 연동
트레이싱 자동 기록
가드레일이 민감 정보를 탐지하면 해당 이벤트가 메시지 트레이스에 자동으로 기록됩니다.| 기록 항목 | 설명 |
|---|---|
| Run 타입 | guardrail |
| Run 이름 | guardrail:가드레일이름 |
| Inputs | 탐지 유형, 원본 내용 (일부) |
| Outputs | 처리 전략, 탐지 상세, 가드레일 이름 |
가드레일 로그
관리자 > 모니터링 > 가드레일 로그에서 모든 탐지 이벤트를 전용 로그로 조회할 수 있습니다.| 필터 | 설명 |
|---|---|
| 기간 | 1시간 ~ 30일, 사용자 지정 |
| 처리 전략 | 차단, 삭제, 마스킹, 해시 |
| 탐지 유형 | PII, 금지 단어, LLM Judge |
| 사용자 | 특정 사용자 필터 |
가드레일 로그에 대한 상세 내용은 가드레일 로그 문서를 참고하세요.
모범 사례
- 단계적 적용
- 역할별 가드레일
- 정기 검토
- 로그만 기록으로 시작하여 탐지 현황 파악
- 오탐(false positive) 패턴 확인 및 조정
- 삭제(Redact) 전략으로 전환
- 안정화 후 필요한 항목에 차단(Block) 적용
문제 해결
오탐(False Positive)이 많은 경우
오탐(False Positive)이 많은 경우
- 커스텀 패턴의 정규식 범위를 축소합니다
- 금지 단어 목록을 정제합니다
- LLM Judge에 허용 케이스 예시를 추가합니다
탐지 누락이 있는 경우
탐지 누락이 있는 경우
- 누락된 PII 유형을 추가합니다
- 커스텀 패턴으로 새 정규식을 등록합니다
- LLM Judge를 활성화하고 차단 예시를 추가합니다
응답이 느린 경우
응답이 느린 경우
- LLM Judge를 비활성화하고 규칙 기반만 사용합니다
- 출력 검증을 비활성화합니다
- 더 빠른 모델을 Judge 모델로 선택합니다
다음 단계
에이전트에 가드레일 적용
생성한 가드레일을 에이전트에 연결합니다
가드레일 로그 확인
탐지 이벤트 로그를 조회하고 분석합니다
