Skip to main content
평가 기능은 AI 응답의 품질을 수동 피드백과 자동 평가 두 가지 방식으로 측정합니다. 사용자의 직접 평가와 LLM 기반 자동 품질 측정을 결합하여 체계적인 품질 관리 체계를 구축할 수 있습니다.

수동 평가 (피드백)

사용자가 AI 응답에 대해 직접 평가하는 기능입니다. 관리자 > 평가 > 평가 탭에서 전체 피드백을 조회합니다.

피드백 수집 방식

채팅 화면에서 AI 응답 아래의 피드백 버튼으로 수집됩니다.
피드백 유형설명
좋아요응답이 유용하고 정확한 경우
싫어요응답이 부정확하거나 도움이 되지 않는 경우
코멘트추가적인 텍스트 피드백

피드백 데이터

필드설명
사용자피드백을 남긴 사용자
유형좋아요/싫어요
모델 ID응답을 생성한 모델
이유피드백 사유
코멘트상세 의견
생성일피드백 생성 시간

피드백 관리

기능설명권한
전체 조회모든 사용자의 피드백 조회관리자
내보내기전체 피드백 JSON 내보내기관리자
전체 삭제모든 피드백 일괄 삭제관리자
개별 삭제자신의 피드백 삭제일반 사용자

Arena 평가

두 모델의 응답을 나란히 비교하여 블라인드 평가하는 기능입니다.

설정

관리자 > 평가 탭의 상단 설정에서 구성합니다.
설정설명
Arena 활성화Arena 모드 사용 여부 토글
Arena 모델비교 대상 모델 쌍 구성
Arena가 활성화되면, 사용자가 채팅할 때 두 모델의 응답이 익명으로 나란히 표시되고, 사용자가 더 나은 응답을 선택합니다.

자동 평가

에이전트에서 자동 평가를 활성화하면, 응답 후 비동기로 심판 LLM이 품질을 평가하고 결과를 기록합니다. 관리자 > 평가 > 자동 평가 탭에서 결과를 확인합니다.
자동 평가는 라이선스 기능입니다. evaluation 피처가 활성화된 라이선스가 필요합니다.

평가 유형

유형설명
검색 품질 (Retrieval Quality)검색된 문서가 질문과 관련성이 있는지 평가
충실성 (Faithfulness)검색 내용에 기반한 답변인지 평가 (환각 감지)
응답 품질 (Response Quality)전반적인 유용성과 정확성 평가

평가 프로세스

평가 결과 필드

필드설명
채팅/메시지 ID평가 대상 메시지
모델 ID응답을 생성한 모델
심판 모델 ID평가에 사용된 LLM
평가 유형retrieval, faithfulness, quality
점수0.0 ~ 1.0 (1.0이 최고)
근거점수에 대한 LLM의 설명
상태pending, completed, failed
에러 메시지평가 실패 시 오류 내용

Score Trend 차트

날짜별 평균 점수 추이를 시각화합니다.
모드설명
모든 유형모델별 평균 점수 라인
특정 유형 선택모델 + 유형별 세분화 라인

필터 옵션

필터설명
날짜 범위평가 기간 선택
모델특정 모델로 필터
평가 유형검색 품질, 충실성, 응답 품질
상태pending, completed, failed
점수 범위최소/최대 점수 (0.0 ~ 1.0)

자동 평가 통계

전체 자동 평가의 요약 통계를 제공합니다.
지표설명
전체 건수총 자동 평가 수
완료성공적으로 완료된 평가 수
대기아직 처리 중인 평가 수
실패오류로 실패한 평가 수
평균 점수전체 평균 점수
모델별 통계모델별 건수 및 평균 점수
유형별 통계평가 유형별 건수 및 평균 점수

내보내기

자동 평가 데이터를 내보낼 수 있습니다.
형식설명
CSV스프레드시트 분석용 (id, chat_id, message_id, model_id, score, reasoning 등)
JSON프로그래밍 연동용 전체 데이터

에이전트에서 자동 평가 설정

자동 평가는 에이전트 단위로 활성화합니다.
1

에이전트 편집

워크스페이스 > 에이전트에서 대상 에이전트의 편집 화면을 엽니다.
2

자동 평가 활성화

에이전트 설정의 자동 평가 섹션에서 활성화합니다.
설정설명
활성화자동 평가 사용 여부
심판 모델평가에 사용할 LLM 모델
평가 유형활성화할 평가 유형 선택
3

저장

에이전트를 저장하면, 이후 해당 에이전트의 응답에 대해 자동 평가가 실행됩니다.
심판 모델은 평가 대상 모델보다 동등하거나 더 높은 수준의 모델을 사용하세요. 예를 들어 GPT-4o 응답을 GPT-4o-mini로 평가하면 정확도가 낮을 수 있습니다.

활용 사례

  1. Score Trend 차트에서 일간/주간 점수 추이를 확인합니다
  2. 특정 모델의 점수가 하락하면 해당 기간의 트레이스를 확인합니다
  3. 낮은 점수의 개별 평가를 클릭하여 reasoning(근거)을 확인합니다
  4. 프롬프트, 지식기반, 도구 설정을 조정합니다
  1. Arena 평가를 활성화하여 블라인드 비교 데이터를 수집합니다
  2. 자동 평가의 모델별 통계에서 평균 점수를 비교합니다
  3. 비용 대비 품질 효율이 높은 모델을 기본 모델로 설정합니다
  1. 수동 피드백에서 “싫어요” 비율이 높은 모델/에이전트를 식별합니다
  2. 코멘트를 분석하여 공통적인 불만 패턴을 파악합니다
  3. 해당 에이전트의 시스템 프롬프트나 지식기반을 개선합니다
  4. 개선 후 자동 평가 점수 변화를 추적합니다

다음 단계

트레이싱

낮은 평가 점수의 원인을 트레이스에서 추적합니다

에이전트 설정

자동 평가를 에이전트에 설정합니다