El nugget de modelo de Extensión se genera y coloca en el lienzo de flujos tras ejecutar el nodo Modelo de extensión, que contiene el script R o Python para Spark que define la creación y puntuación del modelo.
De forma predeterminada, el nugget de modelo de Extensión contiene el script que se utiliza para la puntuación de modelos, opciones para leer los datos y cualquier salida de la consola R o de Python para Spark. Opcionalmente, el nugget de modelo de Extensión también puede contener diversas formas de resultado de modelo como, por ejemplo, gráficos y resultado de texto. Cuando se ha generado el nugget de modelo de Extensión y añadido al lienzo de flujos, se puede conectar a él un nodo de salida. A continuación, el nodo de salida se utiliza de la forma habitual en el flujo para obtener información sobre los datos y los modelos y para exportar datos en varios formatos.
pestaña Sintaxis
Sintaxis de puntuación de modelos R. Si se utiliza R, el script R que se utiliza para la puntuación de modelos se muestra en este campo. De forma predeterminada, este campo está habilitado, pero no es editable. Para editar el script de puntuación de modelos Python, pulse Editar.
Sintaxis de puntuación de modelos Python. Si utiliza Python para Spark, el script Python que se utiliza para la puntuación de modelos se muestra en este campo. De forma predeterminada, este campo está habilitado, pero no es editable. Para editar el script de puntuación de modelos Python, pulse Editar.
Si pulsa Editar para que el campo de sintaxis de puntuación sea editable, puede editar el script de puntuación de modelos escribiendo en el campo de sintaxis de puntuación. Por ejemplo, es posible que desee editar el script de puntuación de modelos si se identifica un error en el script de puntuación de modelos después de haber ejecutado el nodo Modelo de extensión para generar un nugget de modelo de Extensión. Los cambios que realice en el script de puntuación de modelos en el nugget de modelo de Extensión se perderán si vuelve a generar el modelo ejecutando de nuevo el nodo Modelo de extensión.
Pestaña Opciones de modelo
Opciones de lectura de datos. Estas opciones sólo se aplican a R, no a Python para Spark. Con estas opciones, puede especificar cómo se manejarán los valores perdidos, los campos de marcas y las variables con formatos de fecha o fecha y hora.
- Leer datos en lotes. Si está procesando una gran cantidad de datos (que es demasiado grande para que se ajuste a la memoria del motor R, por ejemplo), utilice esta opción para descomponer los datos en lotes que se pueden enviar y procesar individualmente. Especifique el número máximo de registros de datos que se deben incluir en cada lote.
Para el nodo Transformación de extensión y el nugget de modelo de Extensión, los datos pasan a través del script R (en lotes). Por este motivo, los scripts R para los nodos de puntuación y proceso de modelos en un entorno Hadoop o de base de datos no deberán incluir operaciones que abarquen o combinen varias filas en los datos como, por ejemplo, la ordenación o agregación. Esta limitación se impone para asegurarse de que los datos se puedan dividir en un entorno Hadoop y durante minería interna de base de datos. Los nodos Generación de extensión y Modelo de extensión no tienen esta limitación.
- Convertir campos de distintivo. Especifica cómo se tratan los campos de distintivo. Existen dos opciones: Cadenas a factor, Enteros y Reales a dobles y Valores lógicos (Verdadero, Falso). Si selecciona Valores lógicos (Verdadero, Falso) los valores originales de los campos de distintivo se pierden. Por ejemplo, si un campo tiene valores
Male
yFemale
, se cambian aTrue
yFalse
. - Convertir valores perdidos al valor 'no disponible' de R (ND). Cuando se selecciona, los valores perdidos se convierten a RNAvalor. El valorNAes utilizado por R para identificar los valores perdidos. Algunas funciones R que utilice pueden tener un argumento que puede controlar cómo se comporta la función cuando los datos contienenNA. Por ejemplo, la función puede permitirle elegir excluir automáticamente los registros que contienenNA. Si esta opción no está seleccionada, los valores perdidos se pasan a R sin modificar y pueden provocar errores cuando se ejecuta el script R.
- Convertir campos de fecha/hora a clases R con un control especial para husos horarios
Cuando está seleccionado, las variables con formatos de fecha o de
fecha y hora se convierten a objetos de fecha/hora de R. Debe seleccionar una de las opciones siguientes:
- R POSIXct. Las variables con formatos de fecha o fecha y hora se convierten a RPOSIXctobjetos.
- R POSIXlt (lista). Las variables con formatos de fecha o fecha y hora se convierten a RPOSIXltobjetos.
Nota: Los formatos de POSIX son opciones avanzadas. Utilice estas opciones solo si el script R especifica que los campos de fecha y hora se tratan de las formas que requieren estos formatos. Los formatos POSIX no se aplican a las variables con formatos de hora.
- Convertir campos de marca se establece como Series para factorizar, Enteros y Reales a dobles
- Convertir valores perdidos al valor 'no disponible' de R (ND) está seleccionado
- Convertir campos de fecha/hora a clases R con control especial para husos horarios no está seleccionado
Separador Salida de la consola
El separador Salida de la consola contiene cualquier salida que se recibe cuando se ejecuta el script R o el script Python para Spark en el separador Sintaxis (por ejemplo, si se utiliza un script R, muestra la salida recibida de la consola R cuando se ejecuta el script R en el campo Sintaxis de puntuación de modelos R en el separador Sintaxis del nugget de modelo de Extensión). Esta salida incluye mensajes de error o avisos de R o Python generados al ejecutar el script R o Python, y cualquier resultado en texto de la consola R. La salida se puede utilizar, básicamente, para depurar el script.
Cada vez que se ejecuta el script de puntuación de modelos, el contenido del separador Salida de la consola se sobrescribe con la salida recibida de la consola R o de Python para Spark. No se puede editar la salida de la consola.