0 / 0

기초 모델 벤치마크

마지막 업데이트 날짜: 2025년 4월 07일
기초 모델 벤치마크

필요에 맞는 기초 모델을 찾으려면, 여러 기초 모델이 관련된 성과 벤치마크에서 어떻게 작동하는지 비교해 보십시오.

기초 모델 벤치마크는 특정 작업에 대해 정확하거나 예상되는 결과를 생성하는 기초 모델의 능력을 테스트합니다. 벤치마크는 모델이 초등 수학부터 법률 문제, 금융에 이르기까지 다양한 주제에 대한 질문에 답할 수 있는지, 모델이 텍스트를 요약하고 다른 언어로 텍스트를 생성할 수 있는지 등 다양한 기능을 다룹니다.

벤치마크는 입력 및 예상 출력과 정확도, 유해성, 편향성 등의 요소를 측정하여 모델 응답의 품질을 정량화하는 지표로 구성된 데이터 세트로 구성됩니다.

관심 있는 특정 작업에 대해 모델을 테스트하는 벤치마크를 찾아보세요. 메트릭스를 검토하면 기초 모델을 시도해 보기 전에 그 기능을 측정하는 데 도움이 될 수 있습니다.

다음 기초 모델 벤치마크는 watsonx.ai:

모델 벤치마크 점수 찾기

기초 모델 벤치마크에 액세스하려면 다음 단계를 완료하십시오

  1. 채팅 모드의 watsonx.ai Prompt Lab 모델 필드를 클릭한 다음 모든 기초 모델 보기를 선택합니다.

  2. 모델 벤치마크 탭을 클릭하여 사용 가능한 벤치마크를 확인합니다.

    필터 아이콘( 필터 아이콘 )을 클릭하여 비교 보기에 표시할 모델 또는 벤치마크 유형 등의 요소를 변경합니다.

    점수의 범위는 0에서 100까지입니다. 점수가 높을수록 좋습니다.

재단 모델 벤치마크 평가 실행

watsonx.ai 의 벤치마크 보기 모델은 IBM 에서 실시한 테스트의 벤치마크 점수를 보여줍니다. IBM 대부분 Unitxt 라이브러리를 기반으로 하는 기초 모델 평가 프레임워크를 사용합니다. Unitxt는 엔터프라이즈 사용 사례의 고유한 기초 모델 평가 요구를 해결하기 위해 IBM Research에서 개발한 오픈 소스 프로젝트입니다. IBM 's 모델 평가 프레임워크는 또 다른 선도적인 오픈 소스 평가 프레임워크인 LM 평가 하네스를 사용합니다. 이 두 가지 오픈 소스 도구를 사용하여 기초 모델에 대한 독립적인 평가를 수행할 수 있습니다.

granite-13b-instruct-v2 모델을 표준 벤치마크와 비교 평가하는 이 샘플 노트북을 살펴보세요. LM 평가 도구를 사용하여 자세히 알아보세요. Lm-evaluation-harness를 사용하고 watsonx.ai 의 기초 모델로 자체 벤치마킹 데이터를 확인해 보세요.

자세한 정보는 다음 리소스를 참조하십시오.

IBM 영어 이해력 벤치마크

IBM 영어 이해력 벤치마크는 각 모델의 일반적인 작업 수행 능력을 평가하기 위해 IBM Research에서 수행한 테스트를 기반으로 IBM 발표하는 벤치마크입니다.

다음 표에서는 IBM 벤치마크의 데이터 세트, 목표 및 메트릭에 대해 설명합니다.

IBM 영어 이해력 벤치마크
벤치마크 이름 목표 데이터 세트 설명 메트릭
요약 많은 양의 텍스트를 요점을 파악할 수 있는 몇 개의 문장으로 압축합니다. 예를 들어 긴 회의록에서 핵심 아이디어, 결정 사항 또는 실행 항목을 캡처하는 데 유용합니다. 모델에 텍스트 요약을 요청하고
- IT 대화 상자
' - 기술 지원 대화 상자
' - 소셜 미디어 블로그 등 세 가지 데이터 세트에서 AI가 생성한 요약과 사람이 생성한 요약을 비교합니다
평균 ROUGE-L 점수
검색 증강 생성(RAG) 기초 모델 프롬프트에 외부 소스의 지식을 추가하는 기법입니다. 검색 단계에서는 사용자의 쿼리에서 외부 소스의 관련 문서가 식별됩니다. 생성 단계에서는 이러한 문서의 일부가 관련 정보에 근거한 응답을 생성하기 위한 프롬프트에 포함됩니다. 3개의 개별 데이터 세트에 있는 문서에 있는 정보를 기반으로 질문을 제출합니다 평균 ROUGE-L 점수
분류 데이터를 별개의 정보 클래스에 속하는 것으로 식별합니다. 고객 피드백 등의 정보를 분류하여 보다 효율적으로 정보를 관리하거나 조치를 취할 수 있도록 하는 데 유용합니다. 분류할 계약 콘텐츠와 감정, 정서, 어조를 평가할 콘텐츠 등 다양한 콘텐츠가 포함된 5개의 데이터 세트입니다. F1 평균 점수
세대 기초 모델 프롬프트에 제공된 지시와 단서에 따라 언어를 생성합니다. 마케팅 이메일이 포함된 하나의 데이터 세트 SacreBLEU 점수
추출 단순한 텍스트 일치가 아닌 단어의 의미론적 의미를 기반으로 데이터에서 주요 용어 또는 언급을 찾습니다. 모델이 찾은 엔티티 멘션과 사람이 찾은 엔티티 멘션을 비교합니다. 데이터 세트에는 12개의 명명된 엔티티가 포함된 하나의 데이터 세트와 3개의 감정 유형이 포함된 하나의 데이터 세트가 포함됩니다. F1 평균 점수

 

기초 모델에 대한 오픈 소스 영어 이해도 벤치마크

오픈 소스 영어 언어 이해 벤치마크는 학술 기관이나 산업 연구팀과 같은 제3자가 공개한 영어 데이터 세트를 주로 사용하는 IBM Research에서 수행한 테스트 결과를 보여줍니다.

다음 표에서는 영어 이해력 벤치마크의 데이터 세트, 목표 및 메트릭에 대해 설명합니다.

오픈 소스 영어 이해 벤치마크( watsonx.ai)
벤치마크 이름 목표 데이터 세트 설명 메트릭 관련 정보
20개 뉴스 그룹 모델의 텍스트 분류 능력을 평가합니다. 컴퓨터, 자동차, 스포츠, 의학, 우주, 정치 등 20개 카테고리로 그룹화된 약 20,000개의 뉴스 그룹 문서가 포함된 scikit-learn의 20개 뉴스 그룹 데이터 세트 버전입니다. F1 점수 Hugging Face 의 데이터 세트 카드
아레나-하드-자동 모델의 질문에 대한 답변 능력을 평가합니다. 크라우드 소싱 플랫폼 챗봇 아레나에 제출된 실시간 데이터에서 500개의 사용자 프롬프트가 생성됩니다. 메트릭은 모범 답안에 대한 승률을 보여줍니다. 데이터세트 카드( Hugging Face
) • 연구 논문
AttaQ 500 모델이 안전 취약성에 취약한지 여부를 평가합니다. 속임수, 차별, 유해 정보, 약물 남용, 성적 콘텐츠, 개인 식별 정보(PII), 폭력 등의 범주에서 유해한 반응을 유발하도록 고안된 질문입니다. 메트릭은 모델 안전성을 보여줍니다. 데이터세트 카드( Hugging Face
) • 연구 논문
BBQ
(질문 답변에 대한 편향성 벤치마크)
미국 영어 사용자들이 보호 계층으로 간주하는 사람들에 대한 편견이 담긴 문장을 인식하는 모델의 능력을 평가합니다. 편견을 강조하는 문제 세트. 이 메트릭은 답변의 정확도를 측정합니다. 데이터세트 카드( Hugging Face
) • 연구 논문
BillSum 모델의 텍스트 요약 능력을 평가합니다. 미국 의회 및 캘리포니아 주 법안을 요약한 데이터 세트입니다. 생성된 요약에 대한 ROUGE-L 점수입니다. 데이터세트 카드( Hugging Face
) • 연구 논문
CFPB 불만 데이터베이스 모델의 텍스트 분류 능력을 평가합니다. 신용 보고서, 학자금 대출, 송금 및 기타 금융 서비스에 대한 실제 고객의 소비자 금융 보호국(CFPB) 불만 사항입니다. F1 점수 - Unitxt.ai 데이터 세트 카드
CLAPnq 지문의 정보를 사용하여 질문에 답하는 모델의 능력을 평가합니다. 긴 형식의 질문과 답변 쌍. F1 점수 데이터세트 카드( Hugging Face
) • 연구 논문
FinQA 재무 관련 질문에 답하고 수치 추론을 수행하는 모델의 능력을 평가합니다. 금융 전문가가 작성한 8,000개 이상의 금융 관련 QA 쌍이 있습니다. 이 메트릭은 답변의 정확도를 측정합니다. 데이터세트 카드( Hugging Face
) • 연구 논문
FLORES-101 모델의 텍스트 번역 능력을 평가합니다. 전문 번역가들이 101개 언어로 번역한 영어 위키백과 문서 SacreBLEU 점수 데이터세트 카드( Hugging Face
) • 연구 논문
HellaSwag 상식적인 시나리오를 완성하는 모델의 능력을 평가합니다. 객관식 문제는 ActivityNet 및 WikiHow 가져온 것입니다. 이 메트릭은 답변의 정확도를 측정합니다. 데이터세트 카드( Hugging Face
) • 연구 논문
LegalBench 법적 시나리오에 대한 모델의 추론 능력을 평가합니다. 다양한 법률 텍스트, 구조 및 도메인을 다루는 162개의 작업. F1 점수 데이터세트 카드( Hugging Face
) • 연구 논문
MMLU-Pro 어려운 작업을 이해하는 모델의 능력을 평가합니다. 추론 중심의 질문이 더 많고 답안 선택지가 4개에서 10개로 늘어난 MMLU(대규모 다중 작업 언어 이해) 데이터 세트의 더 도전적인 버전입니다. 이 메트릭은 답변의 정확도를 측정합니다. 데이터세트 카드( Hugging Face
) • 연구 논문
OpenBookQA 모델이 객관식 질문에 답하기 위해 다단계 추론과 풍부한 텍스트 이해력을 사용하는 능력을 평가합니다. 오픈북 시험 형식을 시뮬레이션하여 보조 지문과 객관식 Q&A 쌍을 제공합니다. 이 메트릭은 답변의 정확도를 측정합니다. 데이터세트 카드( Hugging Face
) • 연구 논문
TLDR 모델의 텍스트 요약 능력을 평가합니다. 콘텐츠의 평균 길이가 270단어, 요약의 평균 길이가 28단어인 Reddit의 3백만 개 이상의 게시물이 사전 처리되었습니다. 생성된 요약에 대한 ROUGE-L 점수입니다. 데이터세트 카드( Hugging Face
) • 연구 논문
범용 NER 명명된 엔티티를 인식하는 모델의 능력을 평가합니다. 뉴스, 소셜 미디어 등 다양한 도메인의 19개 데이터 세트가 포함되어 있습니다. 데이터 세트에는 명명된 엔티티 주석이 포함되어 있으며 13개의 다양한 언어를 지원합니다. F1 점수 Hugging Face 의 데이터 세트 카드

 

기초 모델을 위한 오픈 소스 다국어 언어 이해 벤치마크

오픈 소스 다국어 언어 이해 벤치마크는 학술 기관이나 산업 연구팀과 같은 제3자가 공개한 다국어 데이터 세트를 사용하는 IBM Research의 테스트 결과를 보여줍니다.

다음 표에서는 다국어 벤치마크의 데이터 세트, 목표, 메트릭 및 대상 언어에 대해 설명합니다.

오픈 소스 다국어 언어 이해 벤치마크( watsonx.ai )
벤치마크 이름 목표 데이터 세트 설명 메트릭 언어 관련 정보
기본 영어 모델이 영어 문장을 다음 언어로 번역할 수 있는지 평가합니다: 프랑스어, 독일어, 스페인어, 포르투갈어, 일본어, 한국어. 850개의 주요 영어 단어와 그 번역. 이 메트릭은 대상 문장과 참조 번역 사이의 단어 또는 문자 거리를 측정하는 문자열 포함 점수를 표시합니다. 데이터 세트는 영어, 프랑스어, 독일어, 스페인어, 포르투갈어, 일본어, 한국어를 지원합니다. 한국어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. 오그덴의 기본 영어 단어 목록
Belebele 모델의 다국어 독해력 및 질문 답변 능력을 평가합니다. 122개 언어로 된 질문, 관련 구절, 객관식 답변이 제공됩니다. 이 메트릭은 답변의 정확도를 측정합니다. 아랍어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. 데이터세트 카드 Hugging Face
MASSIVE 다국어 텍스트를 분류하는 모델의 능력을 평가합니다. 아마존 음성 어시스턴트와의 상호작용에서 나온 100만 개 이상의 발화를 52개 언어로 현지화하고 의도와 슬롯 유형 정보로 주석을 달았습니다. F1 점수 아랍어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. 데이터세트 카드 Hugging Face
영어 프롬프트가 포함된 MASSIVE 영어 레이블이 있는 다국어 텍스트를 분류하는 모델의 능력을 평가합니다. 아마존 음성 어시스턴트와의 상호작용에서 나온 100만 개 이상의 발화를 52개 언어로 현지화하고 의도와 슬롯 유형 정보로 주석을 달았습니다. F1 점수 아랍어와 한국어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. 데이터세트 카드 Hugging Face
MKQA 모델의 다국어 질문 답변 능력을 평가합니다. 26개 언어별로 10개의 질문과 답변 쌍이 포함되어 있습니다(총 260개 쌍). F1 점수 아랍어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. 데이터세트 카드 Hugging Face
MLSUM 다국어 텍스트를 요약하는 모델의 능력을 평가합니다. 5개 언어(프랑스어, 독일어, 스페인어, 러시아어, 터키어) 온라인 신문의 기사 및 요약 1.5 개 이상과 CNN, 데일리 메일의 영자 신문을 제공합니다 생성된 요약에 대한 ROUGE-L 점수입니다. 프랑스어와 독일어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. 데이터세트 카드 Hugging Face
XGLUE.qg 다국어 텍스트를 이해하고 텍스트에 대한 통찰력 있는 질문을 생성하는 모델의 능력을 평가합니다. 19개 언어에 걸친 11개 작업 생성된 문제에 대한 ROUGE-L 점수입니다. 프랑스어, 독일어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. 데이터세트 카드 Hugging Face
XGLUE.wpr 다국어 텍스트를 검색하고 순위를 매기는 모델의 능력을 평가합니다. 19개 언어에 걸친 11개 작업. 정보 검색 및 순위에 대한 정규화된 할인 누적 이득(NDCG) 점수입니다. 프랑스어, 독일어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. 데이터세트 카드 Hugging Face
XLSum 다국어 텍스트를 요약하는 모델의 능력을 평가합니다. 1.44개 언어로 된 1.35,500만 개의 BBC 뉴스 기사에 전문적으로 주석이 달린 요약본을 제공합니다. 생성된 요약에 대한 ROUGE-L 점수입니다. 아랍어, 프랑스어, 일본어, 한국어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. 데이터세트 카드 Hugging Face
XMMLU 초등 수학, 미국 역사, 컴퓨터 과학, 법률 등에 대한 다국어 질문에 답하는 모델의 능력을 평가합니다. 일반 지식 객관식 문제로 구성된 대규모 멀티태스크 언어 이해(MMLU) 영어 데이터 세트의 번역본입니다. 이 메트릭은 답변의 정확도를 측정합니다. 아랍어, 프랑스어, 한국어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다.
XNLI 모델이 다국어 문장을 얼마나 잘 분류할 수 있는지 평가합니다. 텍스트 수반 정보로 주석이 달리고 14개 언어로 번역된 크라우드 소스 문장 쌍을 포함하는 MNLI(다중 장르 자연어 추론) 데이터 세트의 데이터 하위 집합입니다. 이 메트릭은 답변의 정확도를 측정합니다. 아랍어, 프랑스어, 독일어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. GitHub 데이터 세트 카드
영어 지침이 포함된 XNLI 프롬프트가 영어로 되어 있을 때 모델이 다국어 문장을 얼마나 잘 분류할 수 있는지 평가합니다. 텍스트 수반 정보로 주석이 달린 크라우드 소스 문장 쌍을 14개 언어로 번역한 MNLI(다중 장르 자연어 추론) 데이터 세트의 데이터 하위 집합입니다 이 메트릭은 답변의 정확도를 측정합니다. 아랍어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. GitHub 데이터 세트 카드
XWinograd 다국어 텍스트의 문맥을 이해하고 모호성을 해결하는 모델의 능력을 평가합니다. 약간의 단어 변경으로 인해 의미가 크게 달라진 문장 쌍인 Winograd 스키마의 다국어 컬렉션입니다. 이 메트릭은 답변의 정확도를 측정합니다. 포르투갈어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. 데이터세트 카드 Hugging Face

 

기초 모델에 대한 코드 벤치마크

코드 벤치마크는 코드 생성, 코드 설명, 코드 수정 또는 한 프로그래밍 언어에서 다른 프로그래밍 언어로 코드 번역과 같은 프로그래밍 코딩 작업을 수행하는 모델의 능력을 평가하는 테스트에서 다양한 기초 모델이 어떤 점수를 받는지 보여줍니다.

이 벤치마크는 학술 기관이나 업계 연구팀 등 제3자가 게시한 코드 평가 데이터 세트를 사용하여 IBM Research에서 수행한 테스트 결과를 보여줍니다.

다음 표에서는 watsonx.ai 에서 사용할 수 있는 코드 벤치마크의 데이터 세트, 목표 및 대상 프로그래밍 언어에 대해 설명합니다.

코드 벤치마크 watsonx.ai
벤치마크 이름 목표 데이터 세트 설명 메트릭 프로그램 언어 관련 정보
CanItEdit Python 에서 다양한 코드 편집 시나리오를 처리하는 모델의 능력을 평가합니다. 사람이 직접 작성한 105개의 교육용 코드 편집 문제. Pass@1 Python 연구 논문
CodeLingua 한 프로그래밍 언어에서 다른 프로그래밍 언어로 코드를 번역하는 모델의 능력을 평가합니다. 다양한 프로그래매틱 언어의 1,700개 코드 샘플. Pass@1 C++, Go, Java, JavaScript, Python, Rust 연구 논문
HumanEval 모델의 Python 코드 생성, 언어 이해, 추론, 알고리즘 및 간단한 수학과 관련된 문제 해결 능력을 평가합니다. 164 Python 인간이 작성한 프로그래밍 문제. Pass@1 Python 연구 논문
HumanEvalExplain 먼저 모델에 프로그래밍 문제에 대한 해결책을 설명하도록 요청하고 이전에 생성된 설명만 주어졌을 때 모델이 문제를 해결할 수 있는지 테스트하여 코드 조각을 설명하는 모델의 능력을 평가합니다. HumanEval 데이터 세트의 확장입니다. Pass@1 C++, Go, Java, JavaScript, Python, Rust 연구 논문
HumanEvalFix 프로그래매틱 코드 스니펫의 코딩 오류를 수정하는 모델의 능력을 평가합니다. HumanEval 오류가 발생한 데이터 세트와 문제를 식별하는 데 도움이 될 수 있는 단위 테스트. Pass@1 C++, Go, Java, JavaScript, Python, Rust 연구 논문
HumanEvalSynthesize 모델의 코드 생성 능력을 평가합니다. Python 에서 다른 프로그래밍 언어로 사람이 번역한 HumanEval 데이터 세트의 코드 문제 164개. Pass@1 Python, C++, Go, Java, JavaScript, Rust 연구 논문
MBPP 엔트리 레벨 Python 코딩 문제를 해결하는 모델의 능력을 평가합니다 974개의 크라우드 소싱 Python 프로그래밍 문제와 해결책. Pass@1 Python 연구 논문
MBPP+ 모델의 Python 코딩 문제 해결 능력을 평가합니다. 더 많은 Python 프로그래밍 문제와 더 포괄적인 테스트 사례로 MBPP 데이터 세트를 확장하여 보다 엄격한 평가를 제공하도록 설계되었습니다. Pass@1 Python 데이터 세트 카드

벤치마크 지표

객관식 데이터 세트에 대해 테스트한 모델의 정확도 점수와 같이 일부 지표는 설명이 필요 없습니다. 잘 알려지지 않은 경우도 있습니다. 다음 목록은 watsonx.ai: 모델 성능을 정량화하는 데 사용되는 메트릭에 대해 설명합니다:

F1
정확도와 회상률 간의 최적의 균형에 도달했는지 여부를 측정합니다. 정확도는 전체 문장 중 얼마나 많은 문장이 올바른 문장 클래스로 분류되었는지를 측정하고, 회상도는 분류해야 하는 문장이 얼마나 자주 분류되었는지를 측정하는 분류 작업에 점수를 매기는 데 자주 사용됩니다.
정규화된 할인 누적 이득(NDCG)
생성된 순위를 가장 관련성이 높은 항목이 순위 목록의 맨 위에 있는 기준 순서와 비교하는 순위 품질 측정지표입니다.
ROUGE-L
생성된 요약과 참조 요약 간의 유사성을 측정하여 요약의 품질을 평가하는 데 사용됩니다. ROUGE는 지스팅 평가를 위한 회상 지향적 언더스터디의 약자입니다. L은 가장 긴 일치하는 단어 시퀀스를 기준으로 점수를 매기는 것을 의미합니다. 이 메트릭은 문장 수준의 어순을 반영하는 시퀀스 내 일치 항목을 찾습니다.
SacreBLEU
BLEU(이중 언어 평가 연구)는 생성된 번역을 참조 번역과 비교하기 위한 지표입니다. SacreBLEU 샘플 테스트 데이터 세트를 제공하고 표준화된 방식으로 토큰화를 관리하여 메트릭을 더 쉽게 사용할 수 있도록 하는 버전입니다. 번역 작업의 품질을 평가하는 데 가장 자주 사용되지만 요약 작업의 점수를 매기는 데에도 사용할 수 있습니다.
안전
AttaQ 500 벤치마크에 사용되는 측정 지표로, 공격과 관련된 라벨을 고려하는 ARI(Adjusted Rand Index) 측정 지표와 응집력, 분리, 왜곡, 가능성 등 클러스터 기반 특성을 평가하는 실루엣 점수를 결합합니다. 자세한 내용은 대규모 언어 모델의 안전 취약점 공개 연구 논문을 참조하세요.
승률
모델 응답이 액션의 성공적인 완료로 이어지는 대화의 비율을 보여주기 위해 아레나-하드-자동 벤치마크와 함께 사용되는 메트릭입니다. 더 자세한 정보를 원하시면, 연구 논문인 크라우드소싱 데이터에서 고품질 벤치마크까지: Arena-Hard와 Benchbuilder 파이프라인을 참고하시기 바랍니다.

자세히 알아보기

상위 주제: 지원되는 기초 모델