평가 기능은 AI 응답의 품질을 수동 피드백과 자동 평가 두 가지 방식으로 측정합니다.
사용자의 직접 평가와 LLM 기반 자동 품질 측정을 결합하여 체계적인 품질 관리 체계를 구축할 수 있습니다.
수동 평가 (피드백)
사용자가 AI 응답에 대해 직접 평가하는 기능입니다.
관리자 > 평가 > 평가 탭에서 전체 피드백을 조회합니다.
피드백 수집 방식
채팅 화면에서 AI 응답 아래의 피드백 버튼으로 수집됩니다.
| 피드백 유형 | 설명 |
|---|
| 좋아요 | 응답이 유용하고 정확한 경우 |
| 싫어요 | 응답이 부정확하거나 도움이 되지 않는 경우 |
| 코멘트 | 추가적인 텍스트 피드백 |
피드백 데이터
| 필드 | 설명 |
|---|
| 사용자 | 피드백을 남긴 사용자 |
| 유형 | 좋아요/싫어요 |
| 모델 ID | 응답을 생성한 모델 |
| 이유 | 피드백 사유 |
| 코멘트 | 상세 의견 |
| 생성일 | 피드백 생성 시간 |
피드백 관리
| 기능 | 설명 | 권한 |
|---|
| 전체 조회 | 모든 사용자의 피드백 조회 | 관리자 |
| 내보내기 | 전체 피드백 JSON 내보내기 | 관리자 |
| 전체 삭제 | 모든 피드백 일괄 삭제 | 관리자 |
| 개별 삭제 | 자신의 피드백 삭제 | 일반 사용자 |
Arena 평가
두 모델의 응답을 나란히 비교하여 블라인드 평가하는 기능입니다.
관리자 > 평가 탭의 상단 설정에서 구성합니다.
| 설정 | 설명 |
|---|
| Arena 활성화 | Arena 모드 사용 여부 토글 |
| Arena 모델 | 비교 대상 모델 쌍 구성 |
Arena가 활성화되면, 사용자가 채팅할 때 두 모델의 응답이 익명으로 나란히 표시되고, 사용자가 더 나은 응답을 선택합니다.
자동 평가
에이전트에서 자동 평가를 활성화하면, 응답 후 비동기로 심판 LLM이 품질을 평가하고 결과를 기록합니다.
관리자 > 평가 > 자동 평가 탭에서 결과를 확인합니다.
자동 평가는 라이선스 기능입니다. evaluation 피처가 활성화된 라이선스가 필요합니다.
평가 유형
| 유형 | 설명 |
|---|
| 검색 품질 (Retrieval Quality) | 검색된 문서가 질문과 관련성이 있는지 평가 |
| 충실성 (Faithfulness) | 검색 내용에 기반한 답변인지 평가 (환각 감지) |
| 응답 품질 (Response Quality) | 전반적인 유용성과 정확성 평가 |
평가 프로세스
평가 결과 필드
| 필드 | 설명 |
|---|
| 채팅/메시지 ID | 평가 대상 메시지 |
| 모델 ID | 응답을 생성한 모델 |
| 심판 모델 ID | 평가에 사용된 LLM |
| 평가 유형 | retrieval, faithfulness, quality |
| 점수 | 0.0 ~ 1.0 (1.0이 최고) |
| 근거 | 점수에 대한 LLM의 설명 |
| 상태 | pending, completed, failed |
| 에러 메시지 | 평가 실패 시 오류 내용 |
Score Trend 차트
날짜별 평균 점수 추이를 시각화합니다.
| 모드 | 설명 |
|---|
| 모든 유형 | 모델별 평균 점수 라인 |
| 특정 유형 선택 | 모델 + 유형별 세분화 라인 |
필터 옵션
| 필터 | 설명 |
|---|
| 날짜 범위 | 평가 기간 선택 |
| 모델 | 특정 모델로 필터 |
| 평가 유형 | 검색 품질, 충실성, 응답 품질 |
| 상태 | pending, completed, failed |
| 점수 범위 | 최소/최대 점수 (0.0 ~ 1.0) |
자동 평가 통계
전체 자동 평가의 요약 통계를 제공합니다.
| 지표 | 설명 |
|---|
| 전체 건수 | 총 자동 평가 수 |
| 완료 | 성공적으로 완료된 평가 수 |
| 대기 | 아직 처리 중인 평가 수 |
| 실패 | 오류로 실패한 평가 수 |
| 평균 점수 | 전체 평균 점수 |
| 모델별 통계 | 모델별 건수 및 평균 점수 |
| 유형별 통계 | 평가 유형별 건수 및 평균 점수 |
내보내기
자동 평가 데이터를 내보낼 수 있습니다.
| 형식 | 설명 |
|---|
| CSV | 스프레드시트 분석용 (id, chat_id, message_id, model_id, score, reasoning 등) |
| JSON | 프로그래밍 연동용 전체 데이터 |
에이전트에서 자동 평가 설정
자동 평가는 에이전트 단위로 활성화합니다.
에이전트 편집
워크스페이스 > 에이전트에서 대상 에이전트의 편집 화면을 엽니다.
자동 평가 활성화
에이전트 설정의 자동 평가 섹션에서 활성화합니다.| 설정 | 설명 |
|---|
| 활성화 | 자동 평가 사용 여부 |
| 심판 모델 | 평가에 사용할 LLM 모델 |
| 평가 유형 | 활성화할 평가 유형 선택 |
저장
에이전트를 저장하면, 이후 해당 에이전트의 응답에 대해 자동 평가가 실행됩니다.
심판 모델은 평가 대상 모델보다 동등하거나 더 높은 수준의 모델을 사용하세요. 예를 들어 GPT-4o 응답을 GPT-4o-mini로 평가하면 정확도가 낮을 수 있습니다.
활용 사례
- Score Trend 차트에서 일간/주간 점수 추이를 확인합니다
- 특정 모델의 점수가 하락하면 해당 기간의 트레이스를 확인합니다
- 낮은 점수의 개별 평가를 클릭하여 reasoning(근거)을 확인합니다
- 프롬프트, 지식기반, 도구 설정을 조정합니다
- Arena 평가를 활성화하여 블라인드 비교 데이터를 수집합니다
- 자동 평가의 모델별 통계에서 평균 점수를 비교합니다
- 비용 대비 품질 효율이 높은 모델을 기본 모델로 설정합니다
- 수동 피드백에서 “싫어요” 비율이 높은 모델/에이전트를 식별합니다
- 코멘트를 분석하여 공통적인 불만 패턴을 파악합니다
- 해당 에이전트의 시스템 프롬프트나 지식기반을 개선합니다
- 개선 후 자동 평가 점수 변화를 추적합니다
다음 단계
트레이싱
낮은 평가 점수의 원인을 트레이스에서 추적합니다
에이전트 설정
자동 평가를 에이전트에 설정합니다