필요에 맞는 foundation model 찾으려면 관련 성능 벤치마크에서 다양한 파운데이션 모델의 성능을 비교하세요.
기초 모델 벤치마크는 특정 테스트 데이터 세트에 대해 정확하거나 예상되는 출력을 생성하는 foundation model 기능을 테스트하는 지표입니다. 벤치마크는 모델이 초등 수학부터 법률 문제, 금융에 이르기까지 다양한 주제에 대한 질문에 답할 수 있는지, 모델이 텍스트를 요약하고 다른 언어로 텍스트를 생성할 수 있는지 등 다양한 기능을 다룹니다.
관심 있는 특정 작업에 대해 모델을 테스트하는 벤치마크를 찾아보세요. 메트릭을 검토하면 foundation model 사용해 보기 전에 그 기능을 측정하는 데 도움이 될 수 있습니다.
다음 foundation model 벤치마크는 watsonx.ai: 사용할 수 있습니다:
모델 벤치마크 점수 찾기
foundation model 벤치마크에 액세스하려면 다음 단계를 완료하세요:
채팅 모드의 watsonx.ai Prompt Lab 모델 필드를 클릭한 다음 모든 기초 모델 보기를 선택합니다.
모델 벤치마크 탭을 클릭하여 사용 가능한 벤치마크를 확인합니다.
필터 아이콘( )을 클릭하여 비교 보기에 표시할 모델 또는 벤치마크 유형 등의 요소를 변경합니다.
점수의 범위는 0에서 100까지입니다. 점수가 높을수록 좋습니다.
IBM 영어 이해력 벤치마크
IBM 영어 이해력 벤치마크는 각 모델의 일반적인 작업 수행 능력을 평가하기 위해 IBM Research에서 수행한 테스트를 기반으로 IBM 발표하는 벤치마크입니다.
다음 표에서는 IBM 벤치마크의 데이터 세트, 목표 및 메트릭에 대해 설명합니다.
벤치마크 이름 | 목표 | 데이터 세트 설명 | 메트릭 |
---|---|---|---|
요약 | 많은 양의 텍스트를 요점을 파악할 수 있는 몇 개의 문장으로 압축합니다. 예를 들어 긴 회의록에서 핵심 아이디어, 결정 사항 또는 실행 항목을 캡처하는 데 유용합니다. | 모델에 텍스트 요약을 요청하고 - IT 대화 상자 ' - 기술 지원 대화 상자 ' - 소셜 미디어 블로그 등 세 가지 데이터 세트에서 AI가 생성한 요약과 사람이 생성한 요약을 비교합니다 |
평균 ROUGE-L 점수 |
검색 증강 생성(RAG) | foundation model 프롬프트에 외부 소스의 지식으로 보강하는 기술입니다. 검색 단계에서는 사용자의 쿼리에서 외부 소스의 관련 문서가 식별됩니다. 생성 단계에서는 이러한 문서의 일부가 관련 정보에 근거한 응답을 생성하기 위한 프롬프트에 포함됩니다. | 3개의 개별 데이터 세트에 있는 문서에 있는 정보를 기반으로 질문을 제출합니다 | 평균 ROUGE-L 점수 |
분류 | 데이터를 별개의 정보 클래스에 속하는 것으로 식별합니다. 고객 피드백 등의 정보를 분류하여 보다 효율적으로 정보를 관리하거나 조치를 취할 수 있도록 하는 데 유용합니다. | 분류할 계약 콘텐츠와 감정, 정서, 어조를 평가할 콘텐츠 등 다양한 콘텐츠가 포함된 5개의 데이터 세트입니다. | F1 평균 점수 |
세대 | foundation model 프롬프트에서 제공되는 지침 및 단서에 대한 응답으로 언어를 생성합니다. | 마케팅 이메일이 포함된 하나의 데이터 세트 | SacreBLEU 점수 |
추출 | 단순한 텍스트 일치가 아닌 단어의 의미론적 의미를 기반으로 데이터에서 주요 용어 또는 언급을 찾습니다. | 모델이 찾은 엔티티 멘션과 사람이 찾은 엔티티 멘션을 비교합니다. 데이터 세트에는 12개의 명명된 엔티티가 포함된 하나의 데이터 세트와 3개의 감정 유형이 포함된 하나의 데이터 세트가 포함됩니다. | F1 평균 점수 |
기초 모델에 대한 오픈 소스 영어 이해도 벤치마크
오픈 소스 영어 이해력 벤치마크는 주로 학술 기관이나 업계 연구팀과 같은 제3자가 게시한 영어 데이터 세트를 사용하여 IBM Research에서 수행한 테스트 결과를 보여줍니다.
다음 표에서는 영어 이해력 벤치마크의 데이터 세트, 목표 및 메트릭에 대해 설명합니다.
벤치마크 이름 | 목표 | 데이터 세트 설명 | 메트릭 | 관련 정보 |
---|---|---|---|---|
20개 뉴스 그룹 | 모델의 텍스트 분류 능력을 평가합니다. | 컴퓨터, 자동차, 스포츠, 의학, 우주, 정치 등 20개 카테고리로 그룹화된 약 20,000개의 뉴스 그룹 문서가 포함된 scikit-learn의 20개 뉴스 그룹 데이터 세트 버전입니다. | F1 점수 | - Hugging Face 데이터 세트 카드 |
아레나-하드-자동 | 모델의 질문에 대한 답변 능력을 평가합니다. | 크라우드 소싱 플랫폼 챗봇 아레나에 제출된 실시간 데이터에서 500개의 사용자 프롬프트가 생성됩니다. | 메트릭은 모범 답안에 대한 승률을 보여줍니다. | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
AttaQ 500 | 모델이 안전 취약성에 취약한지 여부를 평가합니다. | 속임수, 차별, 유해 정보, 약물 남용, 성적 콘텐츠, 개인 식별 정보(PII), 폭력 등의 범주에서 유해한 반응을 유발하도록 고안된 질문입니다. | 메트릭은 모델 안전성을 보여줍니다. | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
BBQ (질문 답변에 대한 편향성 벤치마크) |
미국 영어 사용자들이 보호 계층으로 간주하는 사람들에 대한 편견이 담긴 문장을 인식하는 모델의 능력을 평가합니다. | 편견을 강조하는 문제 세트. | 이 메트릭은 답변의 정확도를 측정합니다. | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
BillSum | 모델의 텍스트 요약 능력을 평가합니다. | 미국 의회 및 캘리포니아 주 법안을 요약한 데이터 세트입니다. | 생성된 요약에 대한 ROUGE-L 점수입니다. | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
CFPB 불만 데이터베이스 | 모델의 텍스트 분류 능력을 평가합니다. | 신용 보고서, 학자금 대출, 송금 및 기타 금융 서비스에 대한 실제 고객의 소비자 금융 보호국(CFPB) 불만 사항입니다. | F1 점수 | - Unitxt.ai 데이터 세트 카드 |
CLAPnq | 지문의 정보를 사용하여 질문에 답하는 모델의 능력을 평가합니다. | 긴 형식의 질문과 답변 쌍. | F1 점수 | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
FinQA | 재무 관련 질문에 답하고 수치 추론을 수행하는 모델의 능력을 평가합니다. | 금융 전문가가 작성한 8,000개 이상의 금융 관련 QA 쌍이 있습니다. | 이 메트릭은 답변의 정확도를 측정합니다. | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
FLORES-101 | 모델의 텍스트 번역 능력을 평가합니다. | 전문 번역가들이 101개 언어로 번역한 영어 위키백과 문서 | SacreBLEU 점수 | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
HellaSwag | 상식적인 시나리오를 완성하는 모델의 능력을 평가합니다. | 객관식 문제는 ActivityNet 및 WikiHow 가져온 것입니다. | 이 메트릭은 답변의 정확도를 측정합니다. | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
LegalBench | 법적 시나리오에 대한 모델의 추론 능력을 평가합니다. | 다양한 법률 텍스트, 구조 및 도메인을 다루는 162개의 작업. | F1 점수 | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
MMLU-Pro | 어려운 작업을 이해하는 모델의 능력을 평가합니다. | 추론 중심의 질문이 더 많고 답안 선택지가 4개에서 10개로 늘어난 MMLU(대규모 다중 작업 언어 이해) 데이터 세트의 더 도전적인 버전입니다. | 이 메트릭은 답변의 정확도를 측정합니다. | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
OpenBookQA | 모델이 객관식 질문에 답하기 위해 다단계 추론과 풍부한 텍스트 이해력을 사용하는 능력을 평가합니다. | 오픈북 시험 형식을 시뮬레이션하여 보조 지문과 객관식 Q&A 쌍을 제공합니다. | 이 메트릭은 답변의 정확도를 측정합니다. | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
TLDR | 모델의 텍스트 요약 능력을 평가합니다. | 콘텐츠의 평균 길이가 270단어, 요약의 평균 길이가 28단어인 Reddit의 3백만 개 이상의 게시물이 사전 처리되었습니다. | 생성된 요약에 대한 ROUGE-L 점수입니다. | • ' Hugging Face'의 데이터 세트 카드 • 연구 논문 |
범용 NER | 명명된 엔티티를 인식하는 모델의 능력을 평가합니다. | 뉴스, 소셜 미디어 등 다양한 도메인의 19개 데이터 세트가 포함되어 있습니다. 데이터 세트에는 명명된 엔티티 주석이 포함되어 있으며 13개의 다양한 언어를 지원합니다. | F1 점수 | - Hugging Face 데이터 세트 카드 |
기초 모델을 위한 오픈 소스 다국어 언어 이해 벤치마크
오픈 소스 다국어 언어 이해력 벤치마크는 학술 기관이나 업계 연구팀과 같은 제3자가 게시한 다국어 데이터 세트를 사용하여 IBM Research에서 수행한 테스트 결과를 보여줍니다.
다음 표에서는 다국어 벤치마크의 데이터 세트, 목표, 메트릭 및 대상 언어에 대해 설명합니다.
벤치마크 이름 | 목표 | 데이터 세트 설명 | 메트릭 | 언어 | 관련 정보 |
---|---|---|---|---|---|
기본 영어 | 모델이 영어 문장을 다음 언어로 번역할 수 있는지 평가합니다: 프랑스어, 독일어, 스페인어, 포르투갈어, 일본어, 한국어. | 850개의 주요 영어 단어와 그 번역. | 이 메트릭은 대상 문장과 참조 번역 사이의 단어 또는 문자 거리를 측정하는 문자열 포함 점수를 표시합니다. | 데이터 세트는 영어, 프랑스어, 독일어, 스페인어, 포르투갈어, 일본어, 한국어를 지원합니다. 한국어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | 오그덴의 기본 영어 단어 목록 |
Belebele | 모델의 다국어 독해력 및 질문 답변 능력을 평가합니다. | 122개 언어로 된 질문, 관련 구절, 객관식 답변이 제공됩니다. | 이 메트릭은 답변의 정확도를 측정합니다. | 아랍어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | Hugging Face 데이터 세트 카드 |
MASSIVE | 다국어 텍스트를 분류하는 모델의 능력을 평가합니다. | 아마존 음성 어시스턴트와의 상호작용에서 나온 100만 개 이상의 발화를 52개 언어로 현지화하고 의도와 슬롯 유형 정보로 주석을 달았습니다. | F1 점수 | 아랍어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | Hugging Face 데이터 세트 카드 |
영어 프롬프트가 포함된 MASSIVE | 영어 레이블이 있는 다국어 텍스트를 분류하는 모델의 능력을 평가합니다. | 아마존 음성 어시스턴트와의 상호작용에서 나온 100만 개 이상의 발화를 52개 언어로 현지화하고 의도와 슬롯 유형 정보로 주석을 달았습니다. | F1 점수 | 아랍어와 한국어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | Hugging Face 데이터 세트 카드 |
MKQA | 모델의 다국어 질문 답변 능력을 평가합니다. | 26개 언어별로 10개의 질문과 답변 쌍이 포함되어 있습니다(총 260개 쌍). | F1 점수 | 아랍어, 프랑스어, 독일어, 일본어, 한국어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | Hugging Face 데이터 세트 카드 |
MLSUM | 다국어 텍스트를 요약하는 모델의 능력을 평가합니다. | 5개 언어(프랑스어, 독일어, 스페인어, 러시아어, 터키어) 온라인 신문의 기사 및 요약 1.5 개 이상과 CNN, 데일리 메일의 영자 신문을 제공합니다 | 생성된 요약에 대한 ROUGE-L 점수입니다. | 프랑스어와 독일어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | Hugging Face 데이터 세트 카드 |
XGLUE.qg | 다국어 텍스트를 이해하고 텍스트에 대한 통찰력 있는 질문을 생성하는 모델의 능력을 평가합니다. | 19개 언어에 걸친 11개 작업 | 생성된 문제에 대한 ROUGE-L 점수입니다. | 프랑스어, 독일어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | Hugging Face 데이터 세트 카드 |
XGLUE.wpr | 다국어 텍스트를 검색하고 순위를 매기는 모델의 능력을 평가합니다. | 19개 언어에 걸친 11개 작업. | 정보 검색 및 순위에 대한 정규화된 할인 누적 이득(NDCG) 점수입니다. | 프랑스어, 독일어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | Hugging Face 데이터 세트 카드 |
XLSum | 다국어 텍스트를 요약하는 모델의 능력을 평가합니다. | 1.44개 언어로 된 1.35,500만 개의 BBC 뉴스 기사에 전문적으로 주석이 달린 요약본을 제공합니다. | 생성된 요약에 대한 ROUGE-L 점수입니다. | 아랍어, 프랑스어, 일본어, 한국어, 포르투갈어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | Hugging Face 데이터 세트 카드 |
XMMLU | 초등 수학, 미국 역사, 컴퓨터 과학, 법률 등에 대한 다국어 질문에 답하는 모델의 능력을 평가합니다. | 일반 지식 객관식 문제로 구성된 대규모 멀티태스크 언어 이해(MMLU) 영어 데이터 세트의 번역본입니다. | 이 메트릭은 답변의 정확도를 측정합니다. | 아랍어, 프랑스어, 한국어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | |
XNLI | 모델이 다국어 문장을 얼마나 잘 분류할 수 있는지 평가합니다. | 텍스트 수반 정보로 주석이 달리고 14개 언어로 번역된 크라우드 소스 문장 쌍을 포함하는 MNLI(다중 장르 자연어 추론) 데이터 세트의 데이터 하위 집합입니다. | 이 메트릭은 답변의 정확도를 측정합니다. | 아랍어, 프랑스어, 독일어, 스페인어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | GitHub 데이터 세트 카드 |
영어 지침이 포함된 XNLI | 프롬프트가 영어로 되어 있을 때 모델이 다국어 문장을 얼마나 잘 분류할 수 있는지 평가합니다. | 텍스트 수반 정보로 주석이 달린 크라우드 소스 문장 쌍을 14개 언어로 번역한 MNLI(다중 장르 자연어 추론) 데이터 세트의 데이터 하위 집합입니다 | 이 메트릭은 답변의 정확도를 측정합니다. | 아랍어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | GitHub 데이터 세트 카드 |
XWinograd | 다국어 텍스트의 문맥을 이해하고 모호성을 해결하는 모델의 능력을 평가합니다. | 약간의 단어 변경으로 인해 의미가 크게 달라진 문장 쌍인 Winograd 스키마의 다국어 컬렉션입니다. | 이 메트릭은 답변의 정확도를 측정합니다. | 포르투갈어를 지원하는 모델의 경우 watsonx.ai 사용할 수 있습니다. | Hugging Face 데이터 세트 카드 |
벤치마크 지표 이해
객관식 데이터 세트에 대해 테스트한 모델의 정확도 점수와 같이 일부 지표는 설명이 필요 없습니다. 잘 알려지지 않은 경우도 있습니다. 다음 목록은 watsonx.ai: 모델 성능을 정량화하는 데 사용되는 메트릭에 대해 설명합니다:
- F1
- 정확도와 회상률 간의 최적의 균형에 도달했는지 여부를 측정합니다. 정확도는 전체 문장 중 얼마나 많은 문장이 올바른 문장 클래스로 분류되었는지를 측정하고, 회상도는 분류해야 하는 문장이 얼마나 자주 분류되었는지를 측정하는 분류 작업에 점수를 매기는 데 자주 사용됩니다.
- 정규화된 할인 누적 이득(NDCG)
- 생성된 순위를 가장 관련성이 높은 항목이 순위 목록의 맨 위에 있는 기준 순서와 비교하는 순위 품질 측정지표입니다.
- ROUGE-L
- 생성된 요약과 참조 요약 간의 유사성을 측정하여 요약의 품질을 평가하는 데 사용됩니다. ROUGE는 지스팅 평가를 위한 회상 지향적 언더스터디의 약자입니다. L은 가장 긴 일치하는 단어 시퀀스를 기준으로 점수를 매기는 것을 의미합니다. 이 메트릭은 문장 수준의 어순을 반영하는 시퀀스 내 일치 항목을 찾습니다.
- SacreBLEU
- BLEU(이중 언어 평가 연구)는 생성된 번역을 참조 번역과 비교하기 위한 지표입니다. SacreBLEU 샘플 테스트 데이터 세트를 제공하고 표준화된 방식으로 토큰화를 관리하여 메트릭을 더 쉽게 사용할 수 있도록 하는 버전입니다. 번역 작업의 품질을 평가하는 데 가장 자주 사용되지만 요약 작업의 점수를 매기는 데에도 사용할 수 있습니다.
- 안전
- 공격과 관련된 레이블을 고려하는 ARI(조정된 랜드 지수) 지표와 응집력, 분리, 왜곡, 가능성 등 클러스터 기반 특성을 평가하는 실루엣 점수를 결합한 AttaQ 500 벤치마크에 사용되는 지표입니다. 자세한 내용은 대규모 언어 모델의 안전 취약점 공개 연구 논문을 참조하세요.
- 승률
- 모델 응답이 액션의 성공적인 완료로 이어지는 대화의 비율을 보여주기 위해 아레나-하드-자동 벤치마크와 함께 사용되는 메트릭입니다. 자세한 내용은 연구 논문 ' 크라우드소싱 데이터부터 고품질 벤치마크까지: 아레나-하드 및 벤치빌더 파이프라인'을 참조하세요.
자세히 알아보기
상위 주제: 지원되는 기초 모델