0 / 0
Torna alla versione inglese della documentazione

Scheda modello IBM granite-8b-japanese

Ultimo aggiornamento: 28 nov 2024
Scheda modello IBM granite-8b-japanese

Versione modello (1.0.0): Rilasciato il 29/02/2024

Il modello Granite 8 miliardi di giapponese (granite-8b-japanese) è una variante di istruzione inizializzata dal modello Granite Base 8 miliardi di giapponese pre - addestrato. Il pre - addestramento è passato attraverso i token 1.0T in inglese, i tokens 0.5T in giapponese e i token 0.1T di codice. Questo modello è progettato per funzionare con il testo giapponese. IBM Generative AI Large Language Foundation Models sono modelli multilingue di livello aziendale addestrati con grandi volumi di dati che sono stati sottoposti a una pre - elaborazione intensiva e a un'analisi accurata.

  • Persona o organizzazione che sviluppa il modello:
    • granite-8b-japanese è stato sviluppato da IBM Research.
  • Data di rilascio e versione del modello:
    • granite-8b-japanese versione 1.0 è stato rilasciato il 29/02/2024.
  • Tipo di modello:
  • Informazioni su algoritmi di addestramento, parametri, vincoli di correttezza o altri approcci applicati e funzioni:
    • Il modello è stato addestrato utilizzando 4x Tensor Parallel + 4x Pipeline Parallel + Megatron distributed optimizer Megatron-LM.
    • GPU: 448x A100 80GB
    • Interconnessione: 1600 gigabit Infiniband
  • Licenza:
    • Disponibile solo tramite prodotti e offerte IBM . Contattare IBM per i termini di licenza.

Utilizzo previsto

  • Usi principali previsti:
    • granite-8b-japanese viene utilizzato per la generazione del testo, il riepilogo, la domanda e la risposta, la classificazione e l'estrazione in giapponese.
  • Utenti principali previsti:
    • Gli utenti principali sono i clienti di IBM Enterprise che desiderano potenziare i propri portafogli con modelli di intelligenza artificiale generativa a livello aziendale.
  • Casi di utilizzo fuori ambito:
    • granite-8b-japanese non è progettato, testato o supportato per casi di utilizzo del codice di alcun tipo.

Fattori

  • Fattori rilevanti: granite-8b-japanese funziona con il testo giapponese. Tutti i dataset sono stati ripuliti da qualsiasi tipo di tag (ad esempio, HTML) e anche tutti i supporti sono stati rimossi.

Metriche

granite-8b-japanese è stato valutato utilizzando i seguenti otto set di dati noti di Stability-AI/lm-evaluation-harness:

  • JCommonsenseQA è una versione giapponese di CommonsenseQA (Talmor+, 2019), un dataset di risposte a domande a scelta multipla che richiede l'abilità di ragionamento di senso comune. È costruito utilizzando il crowdsourcing con semi estratti dalla base di conoscenza ConceptNet.

  • JNLI è una versione giapponese del dataset NLI (Natural Language Inference). NLI è un compito per riconoscere la relazione di inferenza che una frase di premessa ha con una frase di ipotesi. Le relazioni di inferenza sono 含意, 矛盾e 中立.

  • MARC - ja è un dataset dell'attività di classificazione del testo. Questo set di dati si basa sulla parte giapponese del Multilingual Amazon Reviews Corpus (MARC) (Keung+, 2020).

  • JSQuAD è una versione giapponese di SQuAD (Rajpurkar+, 2016), uno dei dataset di comprensione della lettura. Ogni istanza del dataset consiste in una domanda relativa a un determinato contesto (articolo di Wikipedia) e alla sua risposta. JSQuAD è basato su SQuAD 1.1 (non ci sono domande senza risposta). Abbiamo utilizzato il dump di Wikipedia giapponese a partire da 20211101.

  • Japanese Questions on Knowledge of Entity (JAQKET) è un set di dati di risposte a domande a dominio aperto in giapponese in cui le risposte sono titoli di articoli di Wikipedia.

  • XLSum-ja È un sottoinsieme giapponese filtrato di XLSum basato su ROUGE-2, che PaLM 2 utilizza. È composto da dati filtrati basati sulla sovrapposizione di 15 grammi come ha fatto PaLM 2.

  • XWinograd - XWinograd è un insieme di coppie di frasi di Winograd Schema. Ad esempio:

    • Questa è la prima parte di ブトブト(giapponese) - (giapponese) - (giapponese)
    • Questa è la prima parte di ブトブト(GIAPPONESE): (GIAPPONESE): (GIAPPONESE)

    In questo caso la prima frase è corretta, perché non ha senso per Bob chiedere a Tom quanti soldi Bob stesso presterà. L'attività è per il modello di assegnare il logaritmo della verosimiglianza più alto alla frase ragionevole. A causa del modo in cui l'attività è definita, è sempre zero - shot senza prompt. Mentre XWinograd è un'attività multilingue, questo utilizza solo il sottoinsieme giapponese, che ha 959 coppie.

  • Multilingual Grade School Math è un insieme di 250 problemi matematici in giapponese, con il compito di trovare la giusta soluzione intera al problema.

Risultati zero - shot

Attività Versione Metrica Prestazioni
jcommonsenseqa-1.1-0.3 1.1 Conto 0.7078
jnli-1.3-0.3 1.3 acc bilanciato 0.5032
marc_ja-1.1-0.3 1.1 acc bilanciato 0.6442
jsquad-1.1-0.3 1.1 f1 59.3862
jaqket_v2-0.2-0.3 0.2 f1 60.3066
xlsum_ja-1.0-0.3 1 rouge2 7.2561
xwinograd_ja 1 Conto 0.683
mgsm-1.0-0.3 1 Conto 0.028

Risultati N - shot

Attività Versione Metrica Prestazioni
jcommonsenseqa-1.1-0.3 1.1 Conto 0.807
jnli-1.3-0.3 1.3 acc bilanciato 0.5935
marc_ja-1.1-0.3 1.1 acc bilanciato 0.9461
jsquad-1.1-0.3 1.1 f1 80.9671
jaqket_v2-0.2-0.3 0.2 f1 74.9605
xlsum_ja-1.0-0.3 1 rouge2 9.4874
xwinograd_ja 1 Conto 0.683
mgsm-1.0-0.3 1 Conto 0.116

Dati, limitazioni e raccomandazioni

  • Selezione dati per la formazione:
    • Il granite-8b-japanese ha subito un pre - addestramento utilizzando i token 1.0T in inglese, i token 0.5T in giapponese e i token 0.1T di codice.