0 / 0
Retourner à la version anglaise de la documentation

Carte modèle IBM granite-8b-japanese

Dernière mise à jour : 28 nov. 2024
Carte modèle IBM granite-8b-japanese

Version du modèle (1.0.0): publiée le 2/29/2024

Le modèle Granite 8 milliards de japonais (granite-8b-japanese) est une variante d'instruction initialisée à partir du modèle Granite de base 8 milliards de japonais pré-formé. La pré-formation a été assurée par des jetons 1.0T d'anglais, des jetons 0.5T de japonais et des jetons de code 0.1T . Ce modèle est conçu pour fonctionner avec du texte japonais. IBM Generative AI Large Language Foundation Models sont des modèles multilingues de niveau entreprise entraînés avec de grands volumes de données qui ont fait l'objet d'un pré-traitement intensif et d'une analyse minutieuse.

  • Personne ou organisation qui développe le modèle:
    • granite-8b-japanese a été développé par IBM Research.
  • Date et version de l'édition du modèle:
    • granite-8b-japanese version 1.0 a été publié le 2/29/2024.
  • Type de modèle :
  • Informations sur les algorithmes d'entraînement, les paramètres, les contraintes d'équité ou d'autres approches appliquées, et caractéristiques:
    • Le modèle a été entraîné à l'aide de 4x Tensor Parallel + 4x Pipeline Parallel + Megatron distributed optimizer Megatron-LM.
    • Processeurs graphiques: 448x A100 80GB
    • Interconnexion: 1600 gigabit Infiniband
  • Licence :
    • Disponible uniquement via les produits et offres IBM . Contactez IBM pour connaître les conditions de licence.

Usage prévu

  • Principales utilisations prévues:
    • granite-8b-japanese est utilisé pour la génération de texte, la synthèse, les questions et réponses, la classification et l'extraction en japonais.
  • Principaux utilisateurs prévus:
    • Les principaux utilisateurs sont les clients IBM Enterprise qui cherchent à renforcer leurs portefeuilles avec des modèles d'IA générative au niveau de l'entreprise.
  • Cas d'utilisation non couverts:
    • granite-8b-japanese n'est pas conçu, testé ou pris en charge pour les cas d'utilisation de code de quelque nature que ce soit.

Facteurs

  • Facteurs pertinents: granite-8b-japanese fonctionne avec du texte en japonais. Tous les fichiers ont été nettoyés de tout type de balisage (par exemple, HTML), et tous les supports ont également été supprimés.

Métriques

granite-8b-japanese a été évalué à l'aide des huit ensembles de données bien connus suivants de Stability-AI/lm-evaluation-harness :

  • JCommonsenseQA est une version japonaise de CommonsenseQA (Talmor+, 2019), qui est un ensemble de données de réponses à des questions à choix multiples qui nécessite une capacité de raisonnement de bon sens. Il est construit à l'aide du crowdsourcing avec des graines extraites de la base de connaissances ConceptNet .

  • JNLI est une version japonaise de l'ensemble de données NLI (Natural Language Inference). NLI est une tâche visant à reconnaître la relation d'inférence entre une phrase de prémisse et une phrase d'hypothèse. Les relations d'inférence sont 含意, 矛盾et 中立.

  • MARC-ja est un jeu de données de la tâche de classification de texte. Cet ensemble de données est basé sur la partie japonaise du Multilingual Amazon Reviews Corpus (MARC) (Keung+, 2020).

  • JSQuAD est une version japonaise de SQuAD (Rajpurkar+, 2016), l'un des ensembles de données de compréhension de lecture. Chaque instance de l'ensemble de données consiste en une question concernant un contexte donné (article de Wikipédia) et sa réponse. JSQuAD est basé sur SQuAD 1.1 (il n'y a pas de questions sans réponse). Nous avons utilisé le dump japonais de Wikipédia en date du 01/11/2021.

  • Questions japonaises sur la connaissance de l'entité (JAQKET) est un jeu de données japonais de réponses aux questions à domaine ouvert où les réponses sont des titres d'articles de Wikipédia.

  • XLSum-ja Il s'agit d'un sous-ensemble japonais filtré de XLSum basé sur ROUGE-2 , que PaLM 2 utilise. Il est composé de données filtrées basées sur un chevauchement de 15 grammes, comme l'a fait PaLM 2.

  • XWinograd - XWinograd est un ensemble de paires de phrases du schéma Winograd. Par exemple :

    • (en) (en) (en)トト はお金のいくらか??? しのくい?
    • (en) (en) (en)(en) はお金かいくらか??? しいくい? (en)

    Dans ce cas, la première phrase est correcte, parce qu'il n'est pas logique pour Bob de demander à Tom combien d'argent Bob lui-même prêtera. La tâche du modèle consiste à affecter le log de vraisemblance le plus élevé à la phrase raisonnable. En raison de la façon dont la tâche est définie, elle est toujours zéro-shot sans invite. Alors que XWinograd est une tâche multilingue, cela n'utilise que le sous-ensemble japonais, qui a 959 paires.

  • Multilingual Grade School Math est un ensemble de 250 problèmes mathématiques en japonais, et la tâche consiste à trouver la bonne solution entière au problème.

Résultats sans résultat

Tâche Version Métrique Performances
jcommonsenseqa-1.1-0.3 1.1 Acc 0.7078
jnli-1.3-0.3 1.3 Acc balancé_ée 0.5032
marc_ja-1.1-0.3 1.1 Acc balancé_ée 0.6442
jsquad-1.1-0.3 1.1 f1 59.3862
jaqket_v2-0.2-0.3 0.2 f1 60.3066
xlsum_ja-1.0-0.3 1 rouge2 7.2561
xwinograd_ja 1 Acc 0.683
mgsm-1.0-0.3 1 Acc 0.028

Résultats n-shot

Tâche Version Métrique Performances
jcommonsenseqa-1.1-0.3 1.1 Acc 0.807
jnli-1.3-0.3 1.3 Acc balancé_ée 0.5935
marc_ja-1.1-0.3 1.1 Acc balancé_ée 0.9461
jsquad-1.1-0.3 1.1 f1 80.9671
jaqket_v2-0.2-0.3 0.2 f1 74.9605
xlsum_ja-1.0-0.3 1 rouge2 9.4874
xwinograd_ja 1 Acc 0.683
mgsm-1.0-0.3 1 Acc 0.116

Données, limitations et recommandations

  • Sélection des données pour l'entraînement:
    • Le granite-8b-japanese a été pré-formé à l'aide de jetons 1.0T d'anglais, de jetons 0.5T de japonais et de jetons de code 0.1T .