가드레일 - Cloosphere Guide

가드레일은 AI와 사용자 간의 대화에서 입력과 출력을 검증하는 보안 계층입니다. 민감한 개인정보 유출을 방지하고, 부적절한 콘텐츠를 필터링하여 기업 환경에서 AI를 안전하게 사용할 수 있도록 합니다.

가드레일이란?

가드레일은 규칙 기반 탐지와 LLM 기반 판정을 결합하여 대화의 안전성을 보장합니다.

주요 기능

기능	설명
PII 탐지	이메일, 신용카드, IP 주소, MAC 주소, URL, API 키 등 개인정보 감지
커스텀 패턴	정규식으로 사용자 정의 패턴 탐지 (사번, 문서번호 등)
금지 단어	특정 단어/문구 포함 시 필터링
LLM 기반 판정	AI를 활용한 의미 기반 콘텐츠 검증 (LLM-as-a-Judge)

활용 사례

개인정보 보호: 고객 이메일, 전화번호, 신용카드 정보가 AI에 노출되지 않도록 방지
보안 강화: API 키, 비밀번호, 인증 토큰 등 민감한 자격 증명 탐지
콘텐츠 필터링: 부적절한 표현이나 금지된 주제 차단
규정 준수: GDPR, PIPA 등 산업별 규정에 따른 데이터 처리

가드레일 목록

워크스페이스 > 가드레일에서 모든 가드레일을 확인할 수 있습니다.

요소	설명
이름	가드레일 식별 이름
설명	가드레일 용도 설명
LLM 배지	LLM 기반 탐지 활성화 여부 표시
작성자	가드레일을 생성한 사용자
수정일	마지막 수정 시점

가드레일 생성

기본 정보 입력

워크스페이스 > 가드레일에서 우측 상단의 + 버튼을 클릭합니다.

필드	설명	예시
이름	가드레일 이름	”고객정보 보호”
설명	용도 설명	”고객 개인정보 유출 방지”
공개 범위	접근 권한 설정	비공개 / 팀 공유

저장하면 가드레일 편집 화면으로 이동합니다.

PII 탐지 유형 선택

편집 화면에서 미리 정의된 개인정보 유형을 선택합니다.

PII 유형	설명	예시
이메일	이메일 주소 탐지	`user@example.com`
신용카드	신용카드 번호 (Luhn 검증 포함)	`1234-5678-9012-3456`
IP 주소	IPv4 주소 탐지	`192.168.1.1`
MAC 주소	MAC 주소 탐지	`00:1A:2B:3C:4D:5E`
URL	웹 주소 탐지	`https://example.com`
API 키	API 키 패턴 탐지	`sk-xxxxxxxx`

처리 전략 설정

민감한 정보가 탐지되었을 때 처리 방식을 선택합니다.

전략	설명	결과 예시
차단 (Block)	메시지 전체 차단	”민감한 정보가 감지되어 처리할 수 없습니다”
삭제 (Redact)	민감 정보를 라벨로 대체	”연락처: `[REDACTED_EMAIL]`”
마스킹 (Mask)	일부 문자만 표시	”`j*@.com`”, “`*--**-1234`”
해시 (Hash)	해시값으로 변환	”연락처: `<email_hash:a1b2c3d4e5f6>`”
로그만 기록 (Log Only)	차단 없이 로그만 기록	원본 그대로 전달

도입 초기에는 로그만 기록 전략으로 시작하여 탐지 현황을 파악한 후, 점진적으로 삭제 또는 차단으로 강화하세요.

커스텀 패턴 추가 (선택)

정규식으로 사용자 정의 패턴을 추가합니다.

이름	패턴	용도
사번	`EMP-\d{6}`	사원번호 탐지
내부 문서번호	`DOC-[A-Z]{2}-\d{4}`	문서번호 탐지
프로젝트 코드	`PRJ-\d{4}`	프로젝트 코드 탐지

금지 단어 등록 (선택)

특정 단어나 문구가 포함된 메시지를 필터링합니다. 예: 경쟁사 이름, 비밀 프로젝트명, 내부 코드명 등을 등록합니다.

적용 범위 설정

가드레일이 적용되는 시점을 선택합니다.

옵션	설명
입력 검증	사용자 메시지에 적용
출력 검증	AI 응답에 적용

보안 중심: 입력 + 출력 모두 검증 권장. 성능 중심: 입력만 검증 (응답 지연 최소화).

저장

저장 버튼을 클릭하여 설정을 저장합니다.

LLM 기반 탐지

규칙으로 감지하기 어려운 복잡한 패턴을 AI가 판단합니다. LLM-as-a-Judge 방식으로, 별도의 LLM 모델이 메시지의 적합성을 판정합니다.

설정 항목

항목	설명
활성화	LLM 기반 탐지 사용 여부 토글
모델	판정에 사용할 LLM 모델 선택
프롬프트	판단 기준을 정의하는 프롬프트
허용 예시	PASS로 판정되어야 하는 메시지 예시
차단 예시	BLOCK으로 판정되어야 하는 메시지 예시
입력 적용	사용자 입력에 LLM Judge 적용 여부
출력 적용	AI 응답에 LLM Judge 적용 여부

프롬프트 작성 예시

당신은 콘텐츠 검토 담당자입니다. 다음 메시지가 기업 보안 정책에 적합한지 판단하세요.

## 차단해야 하는 경우
- 기밀 정보 요청 (재무 데이터, 인사 정보 등)
- 시스템 해킹이나 보안 우회 방법 질문
- 불법적이거나 비윤리적인 행동 요청

## 허용하는 경우
- 일반적인 업무 질문
- 공개된 정보에 대한 문의
- 제품/서비스 관련 질문

메시지가 적합하면 "PASS", 부적합하면 "BLOCK"을 반환하세요.

LLM Judge는 추가 LLM 호출이 발생하므로 응답 시간이 증가합니다. 성능이 중요한 경우 규칙 기반 탐지만 사용하거나, 빠른 모델을 Judge로 선택하세요.

가드레일 테스트

가드레일 설정 화면에서 실제 텍스트로 바로 테스트할 수 있습니다.

테스트할 텍스트를 입력합니다
테스트 버튼을 클릭합니다
결과를 확인합니다: 탐지된 항목, 처리된 텍스트, 차단 여부

입력	전략	결과
”제 이메일은 test@example.com입니다”	삭제	”제 이메일은 `[REDACTED_EMAIL]`입니다"
"카드번호: 1234-5678-9012-3456”	마스킹	”카드번호: `**--**-3456`"
"API 키: sk-abc123def456”	해시	”API 키: `a1b2c3d4...`"
"경쟁사X 내부 자료 분석해줘”	차단	”민감한 정보가 감지되어 처리할 수 없습니다”

에이전트에 가드레일 연결

에이전트 편집 화면 열기

워크스페이스 > 에이전트에서 대상 에이전트의 편집 화면을 엽니다.

가드레일 선택

가드레일 섹션에서 적용할 가드레일을 선택합니다. 하나의 에이전트에 여러 가드레일을 적용할 수 있으며, 모든 가드레일을 순차적으로 통과해야 메시지가 처리됩니다.

저장

에이전트 설정을 저장합니다. 이후 해당 에이전트와의 모든 대화에 가드레일이 적용됩니다.

파일 업로드 가드레일

업로드되는 파일에 대한 보안 검사 기능입니다. 관리자 > 설정 > File Guardrails 탭에서 구성합니다.

항목	설명
EXIF 메타데이터 제거	이미지 파일에서 위치 정보, 카메라 정보 등 EXIF 데이터를 자동 제거
매크로 감지	Office 문서(DOCX, XLSX, PPTX)에서 매크로 포함 여부를 검사하고 차단
NSFW 감지	이미지 파일에서 부적절한 콘텐츠를 AI 기반으로 감지
문서 분류	업로드 문서를 자동 분류하여 민감도 레벨 태깅

모니터링 연동

트레이싱 자동 기록

가드레일이 민감 정보를 탐지하면 해당 이벤트가 메시지 트레이스에 자동으로 기록됩니다.

기록 항목	설명
Run 타입	`guardrail`
Run 이름	`guardrail:가드레일이름`
Inputs	탐지 유형, 원본 내용 (일부)
Outputs	처리 전략, 탐지 상세, 가드레일 이름

가드레일 로그

관리자 > 모니터링 > 가드레일 로그에서 모든 탐지 이벤트를 전용 로그로 조회할 수 있습니다.

필터	설명
기간	1시간 ~ 30일, 사용자 지정
처리 전략	차단, 삭제, 마스킹, 해시
탐지 유형	PII, 금지 단어, LLM Judge
사용자	특정 사용자 필터

로그 항목을 클릭하면 상세 정보(원본 내용, 처리 후 내용, 탐지 시각 등)를 확인할 수 있으며, 트레이스 버튼으로 해당 메시지의 전체 처리 맥락을 볼 수 있습니다.

가드레일 로그에 대한 상세 내용은 가드레일 로그 문서를 참고하세요.

모범 사례

단계적 적용
역할별 가드레일
정기 검토

로그만 기록으로 시작하여 탐지 현황 파악
오탐(false positive) 패턴 확인 및 조정
삭제(Redact) 전략으로 전환
안정화 후 필요한 항목에 차단(Block) 적용

역할	권장 설정
고객 지원 봇	PII 전체 + 마스킹
내부 분석 도구	API 키만 + 해시
HR 어시스턴트	PII 전체 + LLM Judge + 차단
일반 업무 봇	기본 PII + 삭제

문제 해결

오탐(False Positive)이 많은 경우

커스텀 패턴의 정규식 범위를 축소합니다
금지 단어 목록을 정제합니다
LLM Judge에 허용 케이스 예시를 추가합니다

탐지 누락이 있는 경우

누락된 PII 유형을 추가합니다
커스텀 패턴으로 새 정규식을 등록합니다
LLM Judge를 활성화하고 차단 예시를 추가합니다

응답이 느린 경우

LLM Judge를 비활성화하고 규칙 기반만 사용합니다
출력 검증을 비활성화합니다
더 빠른 모델을 Judge 모델로 선택합니다

다음 단계

에이전트에 가드레일 적용

생성한 가드레일을 에이전트에 연결합니다

가드레일 로그 확인

탐지 이벤트 로그를 조회하고 분석합니다

워크스페이스

​가드레일이란?

​주요 기능

​활용 사례

​가드레일 목록

​가드레일 생성

​LLM 기반 탐지

​설정 항목

​프롬프트 작성 예시

​가드레일 테스트

​에이전트에 가드레일 연결

​파일 업로드 가드레일

​모니터링 연동

​트레이싱 자동 기록

​가드레일 로그

​모범 사례

​문제 해결

​다음 단계

에이전트에 가드레일 적용

가드레일 로그 확인

가드레일이란?

주요 기능

활용 사례

가드레일 목록

가드레일 생성

LLM 기반 탐지

설정 항목

프롬프트 작성 예시

가드레일 테스트

에이전트에 가드레일 연결

파일 업로드 가드레일

모니터링 연동

트레이싱 자동 기록

가드레일 로그

모범 사례

문제 해결

다음 단계