Tarjeta modelo IBM granite-8b-japanese
Versión de modelo (1.0.0): publicado el 29/2/2024
El modelo de Granite 8 000 millones de japonés (granite-8b-japanese
) es una variante de instrucción inicializada a partir del modelo de Granite Base 8 000 millones de japonés entrenado previamente. El entrenamiento previo ha pasado por señales 1.0T de inglés, señales 0.5T de japonés y señales 0.1T de código. Este modelo está diseñado para funcionar con texto en japonés. IBM Generative AI Large Language Foundation Models son modelos multilingües de nivel empresarial entrenados con grandes volúmenes de datos que se han sometido a un procesamiento previo intensivo y a un análisis cuidadoso.
- Persona u organización que desarrolla el modelo:
granite-8b-japanese
ha sido desarrollado por IBM Research.
- Fecha y versión del release del modelo:
granite-8b-japanese
versión 1.0 se publicó el 29/2/2024.
- Tipo de modelo:
granite-8b-japanese
es un modelo de transformador de sólo decodificador.- En el diseño del modelo se utilizaron las siguientes características:
- Modelo de solo descodificador
- Atención a las consultas de grupo
- IBM Japonés/Inglés Entrenado Tokenizer
- Longitud de contexto 4096
- Incrustación en posición giratoria (RoPE)
- ActivacionesSwiGLU
- Raíz cuadrática media Normalización de capas
- Información sobre algoritmos de entrenamiento, parámetros, restricciones de equidad u otros enfoques y características aplicados:
- El modelo se ha entrenado utilizando 4x Tensor Parallel + 4x Pipeline Parallel + Megatron distributed optimizer Megatron-LM.
- GPU: 448x A100 80GB
- Interconexión: 1600 gigabit Infiniband
- Licencia:
- Sólo está disponible a través de productos y ofertas de IBM . Póngase en contacto con IBM para obtener los términos de licencia.
Finalidad
- Usos principales previstos:
granite-8b-japanese
se utiliza para la generación de texto, resumen, pregunta y respuesta, clasificación y extracción en japonés.
- Usuarios principales previstos:
- Los usuarios principales son clientes de IBM Enterprise que buscan reforzar sus portfolios con modelos de IA generativa a nivel de empresa.
- Casos de uso fuera de ámbito:
granite-8b-japanese
no está diseñado, probado ni soportado para casos de uso de código de ningún tipo.
Factores
- Factores relevantes:
granite-8b-japanese
funciona con texto en japonés. Todos los conjuntos de datos se han limpiado de cualquier tipo de etiquetado (por ejemplo, HTML), y también se han eliminado todos los soportes.
Métricas
granite-8b-japanese
se evaluó utilizando los siguientes ocho conjuntos de datos conocidos de Stability-AI/lm-evaluation-harness:
JCommonsenseQA es una versión japonesa de CommonsenseQA (Talmor+, 2019), que es un conjunto de datos de respuesta a preguntas de opción múltiple que requiere capacidad de razonamiento de sentido común. Se construye mediante crowdsourcing con semillas extraídas de la base de conocimientos ConceptNet.
JNLI es una versión en japonés del conjunto de datos NLI (Natural Language Inference). La NLI es una tarea para reconocer la relación de inferencia que una frase de premisa tiene con una frase de hipótesis. Las relaciones de inferencia son
含意
,矛盾
y中立
.MARC-ja es un conjunto de datos de la tarea de clasificación de texto. Este conjunto de datos se basa en la parte japonesa de Multilingual Amazon Reviews Corpus (MARC) (Keung+, 2020).
JSQuAD es una versión japonesa de SQuAD (Rajpurkar+, 2016), uno de los conjuntos de datos de comprensión lectora. Cada instancia del conjunto de datos consiste en una pregunta relativa a un contexto determinado (artículo de Wikipedia) y su respuesta. JSQuAD se basa en SQuAD 1.1 (no hay preguntas no respondibles). Hemos utilizado el volcado de Wikipedia en japonés de 20211101.
Preguntas Japonesas sobre el Conocimiento de Entidad (JAQKET) es un conjunto de datos de respuesta a preguntas de dominio abierto japonés donde las respuestas son títulos de artículos de Wikipedia.
XLSum-ja Se trata de un subconjunto filtrado en japonés de XLSum basado en ROUGE-2, que utiliza PaLM 2. Se compone de datos filtrados basados en un solapamiento de 15 gramos como lo ha hecho PaLM 2.
XWinograd - XWinograd es un conjunto de pares de frases del esquema Winograd. Por ejemplo:
- Resumen de la descripción de la vida.¿Qué hacer? ¿Qué hacer?
- Resumen de la descripción de la vida.Ahora, la Comisión de Porciones Más de la
En este caso la primera frase es correcta, porque no tiene sentido que Bob le pregunte a Tom cuánto dinero prestará el propio Bob. La tarea consiste en que el modelo asigne el logaritmo de verosimilitud más alto a la frase razonable. Debido a la forma en que se define la tarea, siempre es de disparo cero sin ninguna solicitud. Aunque XWinograd es una tarea multilingüe, sólo utiliza el subconjunto japonés, que tiene 959 pares.
Multilingual Grade School Math es un conjunto de 250 problemas matemáticos de palabras en japonés, y la tarea consiste en obtener la solución entera correcta del problema.
Resultados de captura cero
Tarea | Versión | Medida | Rendimiento |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | Acc | 0.7078 |
jnli-1.3-0.3 | 1.3 | acc_equilibrado | 0.5032 |
marc_ja-1.1-0.3 | 1.1 | acc_equilibrado | 0.6442 |
jsquad-1.1-0.3 | 1.1 | f1 | 59.3862 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 60.3066 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 7.2561 |
xwinograd_ja | 1 | Acc | 0.683 |
mgsm-1.0-0.3 | 1 | Acc | 0.028 |
Resultados de N-shot
Tarea | Versión | Medida | Rendimiento |
---|---|---|---|
jcommonsenseqa-1.1-0.3 | 1.1 | Acc | 0.807 |
jnli-1.3-0.3 | 1.3 | acc_equilibrado | 0.5935 |
marc_ja-1.1-0.3 | 1.1 | acc_equilibrado | 0.9461 |
jsquad-1.1-0.3 | 1.1 | f1 | 80.9671 |
jaqket_v2-0.2-0.3 | 0.2 | f1 | 74.9605 |
xlsum_ja-1.0-0.3 | 1 | rouge2 | 9.4874 |
xwinograd_ja | 1 | Acc | 0.683 |
mgsm-1.0-0.3 | 1 | Acc | 0.116 |
Datos, limitaciones y recomendaciones
- Selección de datos para entrenamiento:
- El
granite-8b-japanese
se ha sometido a un entrenamiento previo utilizando señales 1.0T de inglés, señales 0.5T de japonés y señales 0.1T de código.
- El