IBM granite-8b-japanese 모델 카드
모델 버전 (1.0.0): 릴리스 2/29/2024
Granite 8조일본어 (granite-8b-japanese
) 모델은 사전 훈련된 Granite 기본 8조일본어 모델에서 초기화된 지시 변형입니다. 사전 교육은 영어의 1.0T 토큰, 일본어의 0.5T 토큰 및 코드의 0.1T 토큰을 통과했습니다. 이 모델은 일본어 텍스트에 대해 작업하도록 설계되었습니다. IBM Generative AI Large Language Foundation Models는 집중적인 사전 처리 및 신중한 분석의 대상이 되는 대량의 데이터를 사용하여 훈련된 엔터프라이즈 레벨 다국어 모델입니다.
- 모델을 개발하는 사용자 또는 조직:
granite-8b-japanese
는 IBM Research에서 개발했습니다.
- 모델 릴리스 날짜 및 버전:
granite-8b-japanese
버전 1.0 은 2024년 2월 29일에 릴리스되었습니다.
- 모델 유형:
granite-8b-japanese
는 디코더 전용 변환기 모델입니다.- 다음 기능이 모델의 디자인에서 사용되었습니다.
- 디코더 전용 모델
- 그룹-질의 주의
- IBM 일본어/영어 교육 프로그램
- 4096컨텍스트 길이
- 회전 위치 임베딩( RoPE )
- SwiGLU 활성화
- 평균 제곱근 계층 정규화
- 훈련 알고리즘, 매개변수, 공정성 제한조건 또는 기타 적용된 접근 방식 및 기능에 대한 정보:
- 모델은 4x Tensor Parallel+ 4x Pipeline Parallel+Megatron 분산 최적화 프로그램 Megatron-LM을 사용하여 훈련되었습니다.
- GPU: 448x A100 80GB
- 상호 연결: 1600기가비트 Infiniband
- 라이센스:
- IBM 제품 및 오퍼링을 통해서만 사용 가능합니다. 라이센스 조건에 대해서는 IBM 에 문의하십시오.
용도
- 기본 용도는 다음과 같습니다.
granite-8b-japanese
는 텍스트 생성, 요약, 질문 및 응답, 분류 및 일본어 추출에 사용됩니다.
- 기본 사용자:
- 기본 사용자는 IBM 엔터프라이즈 고객이며 엔터프라이즈 레벨 생성 AI 모델을 사용하여 포트폴리오를 강화하려고 합니다.
- 범위를 벗어난 유스 케이스:
granite-8b-japanese
는 어떤 종류의 코드 유스 케이스에 대해서도 디자인, 테스트 또는 지원되지 않습니다.
요인
- 관련 요인:
granite-8b-japanese
는 일본어 텍스트에서 작동합니다. 모든 데이터 세트가 모든 유형의 태그 지정 (예: HTML) 으로 정리되었으며 모든 매체도 제거되었습니다.
메트릭
granite-8b-japanese
Stability-AI/lm-evaluation-harness 의 다음의 8개 잘 알려진 데이터 세트를 사용하여 평가되었습니다.
JCommonsenseQA 는 상식적 추론 능력이 필요한 객관식 질문 답변 데이터 세트인 CommonsenseQA (Talmor+, 2019)의 일본어 버전입니다. 이는 지식 기반 ConceptNet 에서 추출한 시드를 사용하여 크라우드소싱을 통해 구축되었습니다.
JNLI는 자연어 추론 (NLI) 데이터 세트의 일본어 버전입니다. NLI는 가정 문장이 가정 문장에 대해 갖는 추론 관계를 인식하는 태스크입니다. 추론 관계는
含意
,矛盾
및中立
입니다.MARC-ja는 텍스트 분류 태스크의 데이터 세트입니다. 이 데이터 세트는 Multilingual Amazon Reviews Corpus(MARC) (Keung+, 2020)의 일본어 부분을 기반으로 합니다.
JSQuAD 독해 이해 데이터 세트 중 하나인 SQuAD (Rajpurkar+, 2016)의 일본어 버전입니다. 데이터 세트의 각 인스턴스는 지정된 컨텍스트 (Wikipedia 기사) 및 해당 응답과 관련된 질문으로 구성되어 있습니다. JSQuAD 는 SQuAD 1.1 을 기반으로 합니다 (응답할 수 없는 질문이 없음). 우리는 2021년 11월 1일 기준의 일본어 위키피디아 덤프를 사용했습니다.
JAVKET (Japanese Questions on Knowledge of Entity) 는 일본어 개방형 도메인 질문 응답 데이터 세트이며, 여기서 응답은 Wikipedia 기사 제목입니다.
XLSum-ja 이는 PaLM 2가 사용하는 ROUGE-2 기반으로 한 XLSum 의 필터링된 일본어 하위 집합입니다. 이는 PaLM 2가 수행한 것처럼 15그램겹침을 기반으로 필터링된 데이터로 구성됩니다.
XWinograd - XWinograd는 Winograd Schema 문장 쌍의 집합입니다. 예를 들어,
- ボブはトムに尋ねた。トムはお金をいくらか貸してくれるかと。
- ボブはトムに尋ねた。ボブはお金をいくらか貸してくれるかと。
이 경우 첫 번째 문장은 올바릅니다. 밥이 밥 자신이 얼마나 돈을 빌릴 것인지 톰에게 묻는 것은 이치에 맞지 않기 때문입니다. 태스크는 모델이 합리적인 문장에 더 높은 로그 가능성을 지정하는 것입니다. 태스크가 정의되는 방법 때문에 항상 프롬프트가 없는 제로샷입니다. XWinograd는 다국어 태스크이지만 이는 959쌍이 있는 일본어 서브세트만 사용합니다.
다국어 초등학교 수학은 일본어로 된 250개의 수학 단어 문제로 구성되어 있으며, 과제는 문제에 대한 올바른 정수 해를 구하는 것입니다.
제로샷 결과
태스크 | 버전 | 지표 | 성능 |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | ACC | 0.7078 |
jnli-1.3-0.3 | 1.3 | 밸런d_acc | 0.5032 |
marc_ja-1.1-0.3 | 1.1 | 밸런d_acc | 0.6442 |
jsquad-1.1-0.3 | 1.1 | f1 | 59.3862 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 60.3066 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 7.2561 |
xwinograd_ja | 1 | ACC | 0.683 |
mgsm-1.0-0.3 | 1 | ACC | 0.028 |
N-컷 결과
태스크 | 버전 | 지표 | 성능 |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | ACC | 0.807 |
jnli-1.3-0.3 | 1.3 | 밸런d_acc | 0.5935 |
marc_ja-1.1-0.3 | 1.1 | 밸런d_acc | 0.9461 |
jsquad-1.1-0.3 | 1.1 | f1 | 80.9671 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 74.9605 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 9.4874 |
xwinograd_ja | 1 | ACC | 0.683 |
mgsm-1.0-0.3 | 1 | ACC | 0.116 |
데이터, 제한사항 및 권장사항
- 훈련을 위한 데이터 선택:
granite-8b-japanese
는 영어의 1.0T 토큰, 일본어의 0.5T 토큰 및 코드의 0.1T 토큰을 사용하여 사전 훈련을 수행했습니다.