Carte modèle IBM granite-8b-japanese
Version du modèle (1.0.0): publiée le 2/29/2024
Le modèle Granite 8 milliards de japonais (granite-8b-japanese
) est une variante d'instruction initialisée à partir du modèle Granite de base 8 milliards de japonais pré-formé. La pré-formation a été assurée par des jetons 1.0T d'anglais, des jetons 0.5T de japonais et des jetons de code 0.1T . Ce modèle est conçu pour fonctionner avec du texte japonais. IBM Generative AI Large Language Foundation Models sont des modèles multilingues de niveau entreprise entraînés avec de grands volumes de données qui ont fait l'objet d'un pré-traitement intensif et d'une analyse minutieuse.
- Personne ou organisation qui développe le modèle:
granite-8b-japanese
a été développé par IBM Research.
- Date et version de l'édition du modèle:
granite-8b-japanese
version 1.0 a été publié le 2/29/2024.
- Type de modèle :
granite-8b-japanese
est un modèle de transformateur de décodeur uniquement.- Les caractéristiques suivantes ont été utilisées dans la conception du modèle:
- Modèle de décodeur uniquement
- Attention aux requêtes de groupe
- IBM japonais / anglais Trained Tokenizer
- 4096 longueur de contexte
- Encastrement de position rotatif ( RoPE )
- Activations SwiGLU
- Normalisation de la couche de la racine carrée moyenne
- Informations sur les algorithmes d'entraînement, les paramètres, les contraintes d'équité ou d'autres approches appliquées, et caractéristiques:
- Le modèle a été entraîné à l'aide de 4x Tensor Parallel + 4x Pipeline Parallel + Megatron distributed optimizer Megatron-LM.
- Processeurs graphiques: 448x A100 80GB
- Interconnexion: 1600 gigabit Infiniband
- Licence :
- Disponible uniquement via les produits et offres IBM . Contactez IBM pour connaître les conditions de licence.
Usage prévu
- Principales utilisations prévues:
granite-8b-japanese
est utilisé pour la génération de texte, la synthèse, les questions et réponses, la classification et l'extraction en japonais.
- Principaux utilisateurs prévus:
- Les principaux utilisateurs sont les clients IBM Enterprise qui cherchent à renforcer leurs portefeuilles avec des modèles d'IA générative au niveau de l'entreprise.
- Cas d'utilisation non couverts:
granite-8b-japanese
n'est pas conçu, testé ou pris en charge pour les cas d'utilisation de code de quelque nature que ce soit.
Facteurs
- Facteurs pertinents:
granite-8b-japanese
fonctionne avec du texte en japonais. Tous les fichiers ont été nettoyés de tout type de balisage (par exemple, HTML), et tous les supports ont également été supprimés.
Métriques
granite-8b-japanese
a été évalué à l'aide des huit ensembles de données bien connus suivants de Stability-AI/lm-evaluation-harness :
JCommonsenseQA est une version japonaise de CommonsenseQA (Talmor+, 2019), qui est un ensemble de données de réponses à des questions à choix multiples qui nécessite une capacité de raisonnement de bon sens. Il est construit à l'aide du crowdsourcing avec des graines extraites de la base de connaissances ConceptNet .
JNLI est une version japonaise de l'ensemble de données NLI (Natural Language Inference). NLI est une tâche visant à reconnaître la relation d'inférence entre une phrase de prémisse et une phrase d'hypothèse. Les relations d'inférence sont
含意
,矛盾
et中立
.MARC-ja est un jeu de données de la tâche de classification de texte. Cet ensemble de données est basé sur la partie japonaise du Multilingual Amazon Reviews Corpus (MARC) (Keung+, 2020).
JSQuAD est une version japonaise de SQuAD (Rajpurkar+, 2016), l'un des ensembles de données de compréhension de lecture. Chaque instance de l'ensemble de données consiste en une question concernant un contexte donné (article de Wikipédia) et sa réponse. JSQuAD est basé sur SQuAD 1.1 (il n'y a pas de questions sans réponse). Nous avons utilisé le dump japonais de Wikipédia en date du 01/11/2021.
Questions japonaises sur la connaissance de l'entité (JAQKET) est un jeu de données japonais de réponses aux questions à domaine ouvert où les réponses sont des titres d'articles de Wikipédia.
XLSum-ja Il s'agit d'un sous-ensemble japonais filtré de XLSum basé sur ROUGE-2 , que PaLM 2 utilise. Il est composé de données filtrées basées sur un chevauchement de 15 grammes, comme l'a fait PaLM 2.
XWinograd - XWinograd est un ensemble de paires de phrases du schéma Winograd. Par exemple :
- (en) (en) (en)トト はお金のいくらか??? しのくい?
- (en) (en) (en)(en) はお金かいくらか??? しいくい? (en)
Dans ce cas, la première phrase est correcte, parce qu'il n'est pas logique pour Bob de demander à Tom combien d'argent Bob lui-même prêtera. La tâche du modèle consiste à affecter le log de vraisemblance le plus élevé à la phrase raisonnable. En raison de la façon dont la tâche est définie, elle est toujours zéro-shot sans invite. Alors que XWinograd est une tâche multilingue, cela n'utilise que le sous-ensemble japonais, qui a 959 paires.
Multilingual Grade School Math est un ensemble de 250 problèmes mathématiques en japonais, et la tâche consiste à trouver la bonne solution entière au problème.
Résultats sans résultat
Tâche | Version | Métrique | Performances |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | Acc | 0.7078 |
jnli-1.3-0.3 | 1.3 | Acc balancé_ée | 0.5032 |
marc_ja-1.1-0.3 | 1.1 | Acc balancé_ée | 0.6442 |
jsquad-1.1-0.3 | 1.1 | f1 | 59.3862 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 60.3066 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 7.2561 |
xwinograd_ja | 1 | Acc | 0.683 |
mgsm-1.0-0.3 | 1 | Acc | 0.028 |
Résultats n-shot
Tâche | Version | Métrique | Performances |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | Acc | 0.807 |
jnli-1.3-0.3 | 1.3 | Acc balancé_ée | 0.5935 |
marc_ja-1.1-0.3 | 1.1 | Acc balancé_ée | 0.9461 |
jsquad-1.1-0.3 | 1.1 | f1 | 80.9671 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 74.9605 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 9.4874 |
xwinograd_ja | 1 | Acc | 0.683 |
mgsm-1.0-0.3 | 1 | Acc | 0.116 |
Données, limitations et recommandations
- Sélection des données pour l'entraînement:
- Le
granite-8b-japanese
a été pré-formé à l'aide de jetons 1.0T d'anglais, de jetons 0.5T de japonais et de jetons de code 0.1T .
- Le