관리자 › 평가 › 아레나 · 리더보드
아레나 (Arena)
두 모델의 응답을 나란히 비교하여 블라인드 평가하는 기능입니다.설정
관리자 › 평가 › 아레나

| 설정 | 설명 |
|---|---|
| 아레나 모델 | 아레나 모드 사용 여부 토글 |
| 모델 관리 | 비교 대상 모델 구성 (기본 아레나 모델 사용 또는 커스텀 추가) |
리더보드 (Leaderboard)
관리자 › 평가 › 리더보드

| 필드 | 설명 |
|---|---|
| 모델 | 평가 대상 모델 |
| Elo Rating | 아레나 비교 결과 기반 산출 점수 |
| 대전 수 | 아레나에서 비교된 횟수 |
| 승률 | 선택된 비율 |
활용 사례
모델 간 품질 비교
모델 간 품질 비교
- 아레나 평가를 활성화하여 블라인드 비교 데이터를 수집합니다
- 자동 평가의 모델별 통계에서 평균 점수를 비교합니다
- 비용 대비 품질 효율이 높은 모델을 기본 모델로 설정합니다
관련 페이지
평가
평가 방식 전체 개요와 길잡이
자동 평가
심판 LLM 기반 자동 품질 채점
사용량
모델별 토큰 사용량 확인
