메인 콘텐츠로 건너뛰기
관리자 › 평가 › 아레나 · 리더보드
아레나 · 리더보드는 두 모델을 블라인드로 겨루게 하고(아레나), 그 결과를 Elo rating으로 누적해 순위를 매깁니다(리더보드). 실사용자의 선택에 기반한 객관적 모델 품질 비교를 제공합니다.

아레나 (Arena)

두 모델의 응답을 나란히 비교하여 블라인드 평가하는 기능입니다.

설정

관리자 › 평가 › 아레나
아레나 설정 — 아레나 모델 토글, 모델 관리
설정설명
아레나 모델아레나 모드 사용 여부 토글
모델 관리비교 대상 모델 구성 (기본 아레나 모델 사용 또는 커스텀 추가)
아레나가 활성화되면, 사용자가 채팅할 때 두 모델의 응답이 익명으로 나란히 표시되고, 사용자가 더 나은 응답을 선택합니다.

리더보드 (Leaderboard)

관리자 › 평가 › 리더보드
아레나 블라인드 비교 결과를 기반으로 Elo rating 방식의 모델 순위를 산출합니다. 사용자가 아레나에서 더 나은 응답을 선택할 때마다 해당 모델의 Elo 점수가 갱신되어, 실사용 기반의 모델 품질 순위를 객관적으로 파악할 수 있습니다.
리더보드 — Elo rating 기반 모델 순위 테이블
필드설명
모델평가 대상 모델
Elo Rating아레나 비교 결과 기반 산출 점수
대전 수아레나에서 비교된 횟수
승률선택된 비율

활용 사례

  1. 아레나 평가를 활성화하여 블라인드 비교 데이터를 수집합니다
  2. 자동 평가의 모델별 통계에서 평균 점수를 비교합니다
  3. 비용 대비 품질 효율이 높은 모델을 기본 모델로 설정합니다

관련 페이지

평가

평가 방식 전체 개요와 길잡이

자동 평가

심판 LLM 기반 자동 품질 채점

사용량

모델별 토큰 사용량 확인