평가 - Cloosphere Guide

평가 기능은 AI 응답의 품질을 수동 피드백과 자동 평가 두 가지 방식으로 측정합니다. 사용자의 직접 평가와 LLM 기반 자동 품질 측정을 결합하여 체계적인 품질 관리 체계를 구축할 수 있습니다.

수동 평가 (피드백)

사용자가 AI 응답에 대해 직접 평가하는 기능입니다. 관리자 > 평가 > 평가 탭에서 전체 피드백을 조회합니다.

피드백 수집 방식

채팅 화면에서 AI 응답 아래의 피드백 버튼으로 수집됩니다.

피드백 유형	설명
좋아요	응답이 유용하고 정확한 경우
싫어요	응답이 부정확하거나 도움이 되지 않는 경우
코멘트	추가적인 텍스트 피드백

피드백 데이터

필드	설명
사용자	피드백을 남긴 사용자
유형	좋아요/싫어요
모델 ID	응답을 생성한 모델
이유	피드백 사유
코멘트	상세 의견
생성일	피드백 생성 시간

피드백 관리

기능	설명	권한
전체 조회	모든 사용자의 피드백 조회	관리자
내보내기	전체 피드백 JSON 내보내기	관리자
전체 삭제	모든 피드백 일괄 삭제	관리자
개별 삭제	자신의 피드백 삭제	일반 사용자

Arena 평가

두 모델의 응답을 나란히 비교하여 블라인드 평가하는 기능입니다.

설정

관리자 > 평가 탭의 상단 설정에서 구성합니다.

설정	설명
Arena 활성화	Arena 모드 사용 여부 토글
Arena 모델	비교 대상 모델 쌍 구성

Arena가 활성화되면, 사용자가 채팅할 때 두 모델의 응답이 익명으로 나란히 표시되고, 사용자가 더 나은 응답을 선택합니다.

자동 평가

에이전트에서 자동 평가를 활성화하면, 응답 후 비동기로 심판 LLM이 품질을 평가하고 결과를 기록합니다. 관리자 > 평가 > 자동 평가 탭에서 결과를 확인합니다.

자동 평가는 라이선스 기능입니다. evaluation 피처가 활성화된 라이선스가 필요합니다.

평가 유형

유형	설명
검색 품질 (Retrieval Quality)	검색된 문서가 질문과 관련성이 있는지 평가
충실성 (Faithfulness)	검색 내용에 기반한 답변인지 평가 (환각 감지)
응답 품질 (Response Quality)	전반적인 유용성과 정확성 평가

평가 프로세스

평가 결과 필드

필드	설명
채팅/메시지 ID	평가 대상 메시지
모델 ID	응답을 생성한 모델
심판 모델 ID	평가에 사용된 LLM
평가 유형	retrieval, faithfulness, quality
점수	0.0 ~ 1.0 (1.0이 최고)
근거	점수에 대한 LLM의 설명
상태	pending, completed, failed
에러 메시지	평가 실패 시 오류 내용

Score Trend 차트

날짜별 평균 점수 추이를 시각화합니다.

모드	설명
모든 유형	모델별 평균 점수 라인
특정 유형 선택	모델 + 유형별 세분화 라인

필터 옵션

필터	설명
날짜 범위	평가 기간 선택
모델	특정 모델로 필터
평가 유형	검색 품질, 충실성, 응답 품질
상태	pending, completed, failed
점수 범위	최소/최대 점수 (0.0 ~ 1.0)

자동 평가 통계

전체 자동 평가의 요약 통계를 제공합니다.

지표	설명
전체 건수	총 자동 평가 수
완료	성공적으로 완료된 평가 수
대기	아직 처리 중인 평가 수
실패	오류로 실패한 평가 수
평균 점수	전체 평균 점수
모델별 통계	모델별 건수 및 평균 점수
유형별 통계	평가 유형별 건수 및 평균 점수

내보내기

자동 평가 데이터를 내보낼 수 있습니다.

형식	설명
CSV	스프레드시트 분석용 (id, chat_id, message_id, model_id, score, reasoning 등)
JSON	프로그래밍 연동용 전체 데이터

에이전트에서 자동 평가 설정

자동 평가는 에이전트 단위로 활성화합니다.

에이전트 편집

워크스페이스 > 에이전트에서 대상 에이전트의 편집 화면을 엽니다.

자동 평가 활성화

에이전트 설정의 자동 평가 섹션에서 활성화합니다.

설정	설명
활성화	자동 평가 사용 여부
심판 모델	평가에 사용할 LLM 모델
평가 유형	활성화할 평가 유형 선택

저장

에이전트를 저장하면, 이후 해당 에이전트의 응답에 대해 자동 평가가 실행됩니다.

심판 모델은 평가 대상 모델보다 동등하거나 더 높은 수준의 모델을 사용하세요. 예를 들어 GPT-4o 응답을 GPT-4o-mini로 평가하면 정확도가 낮을 수 있습니다.

활용 사례

응답 품질 모니터링

Score Trend 차트에서 일간/주간 점수 추이를 확인합니다
특정 모델의 점수가 하락하면 해당 기간의 트레이스를 확인합니다
낮은 점수의 개별 평가를 클릭하여 reasoning(근거)을 확인합니다
프롬프트, 지식기반, 도구 설정을 조정합니다

모델 간 품질 비교

Arena 평가를 활성화하여 블라인드 비교 데이터를 수집합니다
자동 평가의 모델별 통계에서 평균 점수를 비교합니다
비용 대비 품질 효율이 높은 모델을 기본 모델로 설정합니다

피드백 기반 개선

수동 피드백에서 “싫어요” 비율이 높은 모델/에이전트를 식별합니다
코멘트를 분석하여 공통적인 불만 패턴을 파악합니다
해당 에이전트의 시스템 프롬프트나 지식기반을 개선합니다
개선 후 자동 평가 점수 변화를 추적합니다

모니터링

평가

수동 평가 (피드백)

피드백 수집 방식

피드백 데이터

피드백 관리

Arena 평가

설정

자동 평가

평가 유형

평가 프로세스

평가 결과 필드

Score Trend 차트

필터 옵션

자동 평가 통계

내보내기

에이전트에서 자동 평가 설정

활용 사례

다음 단계

트레이싱

에이전트 설정

모니터링

​수동 평가 (피드백)

​피드백 수집 방식

​피드백 데이터

​피드백 관리

​Arena 평가

​설정

​자동 평가

​평가 유형

​평가 프로세스

​평가 결과 필드

​Score Trend 차트

​필터 옵션

​자동 평가 통계

​내보내기

​에이전트에서 자동 평가 설정

​활용 사례

​다음 단계

트레이싱

에이전트 설정

수동 평가 (피드백)

피드백 수집 방식

피드백 데이터

피드백 관리

Arena 평가

설정

자동 평가

평가 유형

평가 프로세스

평가 결과 필드

Score Trend 차트

필터 옵션

자동 평가 통계

내보내기

에이전트에서 자동 평가 설정

활용 사례

다음 단계