메인 콘텐츠로 건너뛰기
관리자 › 평가 › 자동 평가
에이전트에서 자동 평가를 활성화하면, 응답 후 비동기로 심판 LLM이 품질을 평가하고 결과를 기록합니다.
자동 평가 결과 화면 — Score Trend 차트, 필터, 결과 테이블
자동 평가는 라이선스 기능입니다. evaluation 피처가 활성화된 라이선스가 필요합니다.

평가 유형

유형설명
검색 품질 (Retrieval Quality)검색된 문서가 질문과 관련성이 있는지 평가
충실성 (Faithfulness)검색 내용에 기반한 답변인지 평가 (환각 감지)
응답 품질 (Response Quality)전반적인 유용성과 정확성 평가

평가 프로세스


자동 평가 켜기 (에이전트에서 활성화)

자동 평가는 에이전트 단위로 활성화합니다. 켜야 결과가 쌓이기 시작합니다.
1

에이전트 편집

워크스페이스 > 에이전트에서 대상 에이전트의 편집 화면을 엽니다.
2

자동 평가 활성화

에이전트 설정의 자동 평가 섹션에서 활성화합니다.
설정설명
활성화자동 평가 사용 여부
샘플링 비율평가할 응답 비율 (1%~100%, 기본 10%)
심판 모델평가에 사용할 LLM 모델
평가 유형활성화할 평가 유형 선택
샘플링 비율 권장:
상황권장이유
신규 에이전트50~100%초기 품질 빠르게 파악
안정화 후5~10%비용 절감 + 모니터링
핵심 업무20~30%품질 보증
3

저장

에이전트를 저장하면, 이후 해당 에이전트의 응답에 대해 자동 평가가 실행됩니다.
심판 모델은 평가 대상 모델보다 동등하거나 더 높은 수준의 모델을 사용하세요. 예를 들어 GPT-4o 응답을 GPT-4o-mini로 평가하면 정확도가 낮을 수 있습니다.

평가 결과 필드

필드설명
채팅/메시지 ID평가 대상 메시지
모델 ID응답을 생성한 모델
심판 모델 ID평가에 사용된 LLM
평가 유형retrieval, faithfulness, quality
점수0.0 ~ 1.0 (1.0이 최고)
근거점수에 대한 LLM의 설명
상태pending, completed, failed
에러 메시지평가 실패 시 오류 내용

Score Trend 차트

날짜별 평균 점수 추이를 시각화합니다.
모드설명
모든 유형모델별 평균 점수 라인
특정 유형 선택모델 + 유형별 세분화 라인

필터 옵션

필터설명
날짜 범위평가 기간 선택
모델특정 모델로 필터
평가 유형검색 품질, 충실성, 응답 품질
상태pending, completed, failed
점수 범위최소/최대 점수 (0.0 ~ 1.0)

자동 평가 통계

전체 자동 평가의 요약 통계를 제공합니다.
지표설명
전체 건수총 자동 평가 수
완료성공적으로 완료된 평가 수
대기아직 처리 중인 평가 수
실패오류로 실패한 평가 수
평균 점수전체 평균 점수
모델별 통계모델별 건수 및 평균 점수
유형별 통계평가 유형별 건수 및 평균 점수

내보내기

자동 평가 데이터를 내보낼 수 있습니다.
형식설명
CSV스프레드시트 분석용 (id, chat_id, message_id, model_id, score, reasoning 등)
JSON프로그래밍 연동용 전체 데이터

활용 사례

  1. Score Trend 차트에서 일간/주간 점수 추이를 확인합니다
  2. 특정 모델의 점수가 하락하면 해당 기간의 트레이스를 확인합니다
  3. 낮은 점수의 개별 평가를 클릭하여 reasoning(근거)을 확인합니다
  4. 프롬프트, 지식기반, 도구 설정을 조정합니다

문제 해결

자동 평가가 failed 상태인 경우:
  • 에러 메시지 확인: 결과 테이블에서 해당 항목의 에러 내용 확인
  • 일반적인 원인: 심판 모델의 API 오류, 타임아웃, 토큰 한도 초과
  • 재실행: 현재 자동 재실행은 지원되지 않습니다. 에이전트 설정에서 자동 평가를 재활성화하면 이후 응답부터 다시 평가됩니다.

관련 페이지

평가

수동 피드백·아레나·리더보드 등 평가 전체 개요

추적

낮은 평가 점수의 원인을 트레이스에서 추적

에이전트 설정

자동 평가를 에이전트에 설정