Scheda modello IBM granite-8b-japanese
Versione modello (1.0.0): Rilasciato il 29/02/2024
Il modello Granite 8 miliardi di giapponese (granite-8b-japanese
) è una variante di istruzione inizializzata dal modello Granite Base 8 miliardi di giapponese pre - addestrato. Il pre - addestramento è passato attraverso i token 1.0T in inglese, i tokens 0.5T in giapponese e i token 0.1T di codice. Questo modello è progettato per funzionare con il testo giapponese. IBM Generative AI Large Language Foundation Models sono modelli multilingue di livello aziendale addestrati con grandi volumi di dati che sono stati sottoposti a una pre - elaborazione intensiva e a un'analisi accurata.
- Persona o organizzazione che sviluppa il modello:
granite-8b-japanese
è stato sviluppato da IBM Research.
- Data di rilascio e versione del modello:
granite-8b-japanese
versione 1.0 è stato rilasciato il 29/02/2024.
- Tipo di modello:
granite-8b-japanese
è un modello di trasformatore solo decodificatore.- Nella progettazione del modello sono state utilizzate le seguenti caratteristiche:
- Modello solo decodificatore
- Attenzione alle richieste di gruppo
- IBM Tokenizer giapponese / inglese
- 4096 lunghezza contesto
- Incorporazione in posizione rotante (RoPE)
- AttivazioniSwiGLU
- Normalizzazione del Root Mean Square Layer
- Informazioni su algoritmi di addestramento, parametri, vincoli di correttezza o altri approcci applicati e funzioni:
- Il modello è stato addestrato utilizzando 4x Tensor Parallel + 4x Pipeline Parallel + Megatron distributed optimizer Megatron-LM.
- GPU: 448x A100 80GB
- Interconnessione: 1600 gigabit Infiniband
- Licenza:
- Disponibile solo tramite prodotti e offerte IBM . Contattare IBM per i termini di licenza.
Utilizzo previsto
- Usi principali previsti:
granite-8b-japanese
viene utilizzato per la generazione del testo, il riepilogo, la domanda e la risposta, la classificazione e l'estrazione in giapponese.
- Utenti principali previsti:
- Gli utenti principali sono i clienti di IBM Enterprise che desiderano potenziare i propri portafogli con modelli di intelligenza artificiale generativa a livello aziendale.
- Casi di utilizzo fuori ambito:
granite-8b-japanese
non è progettato, testato o supportato per casi di utilizzo del codice di alcun tipo.
Fattori
- Fattori rilevanti:
granite-8b-japanese
funziona con il testo giapponese. Tutti i dataset sono stati ripuliti da qualsiasi tipo di tag (ad esempio, HTML) e anche tutti i supporti sono stati rimossi.
Metriche
granite-8b-japanese
è stato valutato utilizzando i seguenti otto set di dati noti di Stability-AI/lm-evaluation-harness:
JCommonsenseQA è una versione giapponese di CommonsenseQA (Talmor+, 2019), un dataset di risposte a domande a scelta multipla che richiede l'abilità di ragionamento di senso comune. È costruito utilizzando il crowdsourcing con semi estratti dalla base di conoscenza ConceptNet.
JNLI è una versione giapponese del dataset NLI (Natural Language Inference). NLI è un compito per riconoscere la relazione di inferenza che una frase di premessa ha con una frase di ipotesi. Le relazioni di inferenza sono
含意
,矛盾
e中立
.MARC - ja è un dataset dell'attività di classificazione del testo. Questo set di dati si basa sulla parte giapponese del Multilingual Amazon Reviews Corpus (MARC) (Keung+, 2020).
JSQuAD è una versione giapponese di SQuAD (Rajpurkar+, 2016), uno dei dataset di comprensione della lettura. Ogni istanza del dataset consiste in una domanda relativa a un determinato contesto (articolo di Wikipedia) e alla sua risposta. JSQuAD è basato su SQuAD 1.1 (non ci sono domande senza risposta). Abbiamo utilizzato il dump di Wikipedia giapponese a partire da 20211101.
Japanese Questions on Knowledge of Entity (JAQKET) è un set di dati di risposte a domande a dominio aperto in giapponese in cui le risposte sono titoli di articoli di Wikipedia.
XLSum-ja È un sottoinsieme giapponese filtrato di XLSum basato su ROUGE-2, che PaLM 2 utilizza. È composto da dati filtrati basati sulla sovrapposizione di 15 grammi come ha fatto PaLM 2.
XWinograd - XWinograd è un insieme di coppie di frasi di Winograd Schema. Ad esempio:
- Questa è la prima parte di ブトブト(giapponese) - (giapponese) - (giapponese)
- Questa è la prima parte di ブトブト(GIAPPONESE): (GIAPPONESE): (GIAPPONESE)
In questo caso la prima frase è corretta, perché non ha senso per Bob chiedere a Tom quanti soldi Bob stesso presterà. L'attività è per il modello di assegnare il logaritmo della verosimiglianza più alto alla frase ragionevole. A causa del modo in cui l'attività è definita, è sempre zero - shot senza prompt. Mentre XWinograd è un'attività multilingue, questo utilizza solo il sottoinsieme giapponese, che ha 959 coppie.
Multilingual Grade School Math è un insieme di 250 problemi matematici in giapponese, con il compito di trovare la giusta soluzione intera al problema.
Risultati zero - shot
Attività | Versione | Metrica | Prestazioni |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | Conto | 0.7078 |
jnli-1.3-0.3 | 1.3 | acc bilanciato | 0.5032 |
marc_ja-1.1-0.3 | 1.1 | acc bilanciato | 0.6442 |
jsquad-1.1-0.3 | 1.1 | f1 | 59.3862 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 60.3066 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 7.2561 |
xwinograd_ja | 1 | Conto | 0.683 |
mgsm-1.0-0.3 | 1 | Conto | 0.028 |
Risultati N - shot
Attività | Versione | Metrica | Prestazioni |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | Conto | 0.807 |
jnli-1.3-0.3 | 1.3 | acc bilanciato | 0.5935 |
marc_ja-1.1-0.3 | 1.1 | acc bilanciato | 0.9461 |
jsquad-1.1-0.3 | 1.1 | f1 | 80.9671 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 74.9605 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 9.4874 |
xwinograd_ja | 1 | Conto | 0.683 |
mgsm-1.0-0.3 | 1 | Conto | 0.116 |
Dati, limitazioni e raccomandazioni
- Selezione dati per la formazione:
- Il
granite-8b-japanese
ha subito un pre - addestramento utilizzando i token 1.0T in inglese, i token 0.5T in giapponese e i token 0.1T di codice.
- Il