RAG 파이프라인
문서가 업로드되면 다음 파이프라인을 거쳐 검색 가능한 상태로 변환됩니다.| 단계 | 설명 |
|---|---|
| 텍스트 추출 | 문서에서 텍스트를 추출합니다 (PDF OCR 포함) |
| 청킹 | 긴 문서를 검색에 적합한 크기로 분할합니다 |
| 임베딩 | 텍스트를 고차원 벡터로 변환합니다 |
| 유사도 검색 | 질문과 가장 유사한 문서 청크를 검색합니다 |
| LLM 응답 생성 | 검색된 문서를 컨텍스트로 활용하여 답변을 생성합니다 |
지식기반 생성
새 지식기반 만들기
워크스페이스 > 지식기반에서 우측 상단의 + 버튼을 클릭합니다.
| 필드 | 설명 | 예시 |
|---|---|---|
| 이름 | 지식기반 이름 (필수) | “인사 규정 2024” |
| 설명 | 용도 및 내용 설명 (필수) | “인사팀 규정 및 가이드라인” |
| 접근 권한 | 공개/비공개 및 그룹/조직 단위 지정 | 공개, 또는 특정 그룹/조직에 제한 |
문서 업로드
생성된 지식기반에 문서를 추가합니다. 내용 추가(+) 버튼을 클릭하여 업로드 방법을 선택합니다.업로드 방법:
| 방법 | 설명 |
|---|---|
| 드래그 앤 드롭 | 파일을 업로드 영역으로 끌어다 놓기 |
| 파일 업로드 | ”내용 추가” 메뉴에서 “파일 업로드” 선택 |
| 글 추가 | 텍스트를 직접 작성하여 추가 |
| 클라우드 스토리지 | Google Drive, OneDrive, SharePoint (관리자가 연동 설정 시 표시) |
지원 파일 형식
| 카테고리 | 형식 | 최대 크기 |
|---|---|---|
| 문서 | PDF, DOCX, PPTX, TXT, MD | 50MB |
| 스프레드시트 | XLSX, CSV | 20MB |
| 웹 | HTML | - |
| 코드 | PY, JS, TS, JSON, YAML | 10MB |
동적 필터
동적 필터를 사용하면 지식기반 내 문서를 메타데이터 기준으로 분류하고, 검색 시 자동으로 범위를 제한할 수 있습니다.필터 스키마 정의
지식기반 설정에서 “필터 추가” 버튼을 클릭하여 필터 필드를 정의합니다.| 설정 | 설명 | 예시 |
|---|---|---|
| 이름 | 필터 필드 이름 | ”부서”, “연도” |
| 타입 | 데이터 유형 | 선택값, 컬렉션, 숫자, 날짜 |
| 옵션 | 선택 가능한 값 목록 (선택값/컬렉션 타입) | “재무팀, 인사팀, 개발팀” |
| 설명 | AI가 필터를 이해하기 위한 설명 | ”문서가 속한 부서를 필터링합니다” |
| 필수 여부 | 필수 필드 설정 시 미입력 파일에 경고 표시 | 필수 체크 |
필터 타입
| 타입 | 설명 | 슬롯 제한 |
|---|---|---|
| 선택값 (Enum) | 미리 정의된 옵션 중 단일 선택 | 최대 4개 |
| 컬렉션 (Collection) | 미리 정의된 옵션 중 복수 선택 | 최대 4개 |
| 숫자 (Number) | 정수값 필터 | 최대 2개 |
| 날짜 (Date) | 날짜 범위 필터 | 최대 2개 |
파일별 메타데이터 설정
필터 스키마 정의 후, 각 파일에 메타데이터 값을 지정합니다. 파일 목록에서 메타데이터 설정 상태가 색상으로 표시됩니다.| 색상 | 의미 |
|---|---|
| 초록 | 모든 필터 필드에 값이 설정됨 |
| 노랑 | 일부 필드만 설정됨 |
| 주황 | 필수 필드가 비어 있음 |
| 회색 테두리 | 메타데이터 미설정 |
| 보라 스피너 | AI 추출 진행 중 |
메타데이터 변경 시 벡터 인덱스가 자동으로 업데이트됩니다. 재임베딩 없이 기존 벡터를 유지합니다.
AI 자동 추출
필터 스키마에 추출 프롬프트를 설정하면, 파일 업로드 시 LLM이 문서 내용과 파일 제목을 분석하여 메타데이터를 자동으로 추출합니다.| 추출 방법 | 설명 |
|---|---|
| 자동 추출 | 파일 업로드 시 자동 실행 (AI 모드 활성 시) |
| 단일 추출 | 파일 메타데이터 편집 화면에서 추출 버튼 클릭 |
| 전체 추출 | 모든 파일의 메타데이터를 일괄 재추출 |
검색 시 필터 활용
에이전트에 연결된 지식기반에 동적 필터가 설정되어 있으면, AI가 사용자 질문에서 필터 조건을 자동으로 추론하여 검색 범위를 제한합니다.도구 설명
도구 설명은 에이전트가 지식기반을 언제, 어떤 상황에서 사용해야 하는지 안내하는 AI 전용 설명입니다.좋은 도구 설명 예시
좋은 도구 설명 예시
지식기반 관리
문서 관리
| 작업 | 방법 |
|---|---|
| 문서 추가 | 내용 추가(+) 버튼 또는 드래그 앤 드롭 |
| 문서 삭제 | 문서 선택 후 삭제 버튼 |
| 내용 확인 | 문서 클릭 시 추출된 텍스트 미리보기 |
같은 이름의 파일을 다시 업로드하면 기존 파일을 대체하지 않고 별도 항목으로 추가됩니다. 문서를 교체하려면 기존 파일을 삭제한 후 새로 업로드하세요.
재인덱싱
전체 지식기반의 벡터 인덱스를 재구축하려면 관리자 설정 > 문서 페이지에서 재인덱싱을 실행합니다. 이 기능은 관리자 전용이며 모든 지식기반을 대상으로 일괄 처리됩니다. 개별 파일의 내용을 수정하고 저장하면 해당 파일만 자동으로 재처리됩니다.채팅에서 사용
- @ 명령어
- 에이전트 연결
채팅 중
@지식기반이름으로 직접 참조합니다.고급 설정
관리자 설정에서 문서 처리 방식과 검색 파라미터를 조정할 수 있습니다.문서 처리 옵션
| 설정 | 설명 | 기본값 |
|---|---|---|
| 청크 크기 | 문서 분할 단위 (문자 수) | 1000 |
| 청크 오버랩 | 청크 간 중복 문자 수 | 100 |
| OCR 활성화 | 이미지 내 텍스트 추출 | 활성화 |
임베딩 엔진
| 엔진 | 특징 |
|---|---|
| 로컬 | 외부 전송 없음, 보안 우수 |
| OpenAI | 높은 품질, API 비용 발생 |
| Azure OpenAI | 기업 환경 최적화 |
검색 설정
| 설정 | 설명 |
|---|---|
| Top K | 검색 결과로 반환할 문서 청크 수 |
| 관련도 임계값 | 최소 유사도 점수 |
| 하이브리드 검색 | 키워드 검색 + 의미 검색 병행 |
| 리랭킹 | 검색 결과를 LLM으로 재정렬 |
베스트 프랙티스
문서 준비
- 깔끔한 포맷: 제목, 소제목을 명확히 구분하고 일관된 스타일을 유지하세요
- 최신 버전 유지: 정기적으로 문서를 업데이트하고 오래된 문서는 삭제하세요
- 적절한 크기: 너무 큰 문서는 주제별로 분리하고, 관련 내용끼리 그룹화하세요
지식기반 구성
- 주제별 분리: “인사규정”, “IT가이드”, “제품매뉴얼” 등 주제별로 별도 지식기반을 구성하세요
- 접근 권한 세분화: 민감한 정보는 별도로 관리하고 부서별로 접근을 제한하세요
- 도구 설명 작성: 에이전트가 적절한 지식기반을 자동 선택하도록 구체적인 도구 설명을 작성하세요
FAQ
지식기반 용량 제한이 있나요?
지식기반 용량 제한이 있나요?
기본 설정에서는 파일 수나 용량에 제한이 없습니다. 관리자가 환경 변수(
RAG_FILE_MAX_COUNT, RAG_FILE_MAX_SIZE)를 통해 제한을 설정할 수 있습니다.PDF 이미지의 텍스트도 인식되나요?
PDF 이미지의 텍스트도 인식되나요?
네, OCR 기능이 활성화되어 있으면 이미지 내 텍스트도 추출됩니다.
문서 업데이트 시 자동으로 반영되나요?
문서 업데이트 시 자동으로 반영되나요?
개별 파일의 내용을 편집하고 저장하면 해당 파일은 자동으로 재처리됩니다. 전체 재인덱싱이 필요한 경우 관리자 설정 > 문서 페이지에서 실행합니다.
동적 필터의 메타데이터를 변경하면 재임베딩이 필요한가요?
동적 필터의 메타데이터를 변경하면 재임베딩이 필요한가요?
아니요, 메타데이터 변경은 벡터 인덱스의 메타데이터만 업데이트하며 재임베딩 없이 기존 벡터를 유지합니다.
여러 언어의 문서를 혼합할 수 있나요?
여러 언어의 문서를 혼합할 수 있나요?
네, 다국어 문서를 모두 지원합니다. 임베딩 모델이 해당 언어를 지원하는지 관리자에게 확인하세요.
