Etapa del agregador: Ficha Etapa (DataStage®)
La etapa Agregador: pestaña Etapa permite controlar los distintos aspectos de la etapa Agregador.
Efectúe una doble pulsación en la etapa para abrir el panel de propiedades de la etapa. La sección Propiedades permite especificar lo que hace la etapa. La sección Avanzado permite especificar cómo se ejecuta la etapa. Especifique una descripción opcional de la etapa.
Sección Propiedades
Utilice la sección Propiedades para definir lo que hace realmente la etapa.
La tabla siguiente lista las propiedades y sus atributos.
Categoría/Propiedad | Valores | Valor predeterminado | ¿Obligatoria? | ¿Repeticiones? | Dependiente de |
---|---|---|---|---|---|
Agrupación de claves/Grupo | Columna de entrada | N/A | Y | Y | N/A |
Claves de agrupación/Distingue entre mayúsculas y minúsculas | True/False | Sí | N | N | Grupo |
Agregaciones/Tipo de agregación | Cálculo/Recálculo/Recuento de filas | Cálculo | Y | N | N/A |
Agregaciones/Columna para cálculo | Columna de entrada | N/A | Y (si Tipo de agregación = Cálculo) | Y | N/A |
Agregaciones/Columna de salida de recuento | Columna de salida | N/A | Y (si Tipo de agregación = Recuento de filas) | Y | N/A |
Agregaciones/Columna de resumen para recálculo | Columna de entrada | N/A | Y (si Tipo de agregación = Recálculo) | Y | N/A |
Agregaciones/Salida decimal como valor predeterminado | precisión, escala | 8,2 | N | N | N/A |
Agregaciones/Suma de cuadrados corregida | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Valor máximo | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Valor medio | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Valor mínimo | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Valor ausente | Columna de salida | N/A | N | Y | Columna para el cálculo |
Agregaciones/Recuento de valores ausentes | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Recuento de valores no ausentes | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Coeficiente de variación porcentual | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Rango | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Desviación Estándar | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Error estándar | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Suma de ponderaciones | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Suma | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Resumen | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Suma de cuadrados no corregida | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Varianza | Columna de salida | N/A | N | N | Columna para cálculo y Columna de resumen para recálculo |
Agregaciones/Divisor de varianza | Valor predeterminado/Nrecs | Valor predeterminado | N | N | Varianza |
Agregaciones/Propiedades dependientes de cálculo y recálculo | Columna de entrada | N/A | N | N | Columna para cálculo o Columna de salida de recuento |
Agregaciones/Salida decimal | precisión, escala | 8,2 | N | N | Método de cálculo o recálculo |
Opciones/Claves de agrupación | hash/sort | generación aleatoria (hash) | Y | Y | N/A |
Opciones/Permitir salidas nulas | True/False | No | Y | N | N/A |
Claves de agrupación
Grupo
Repita la propiedad para seleccionar varias columnas como claves de grupo. Pulse Editar para seleccionar varias claves de grupo a la vez si es necesario. Esta propiedad tiene una propiedad dependiente:
- Distingue entre mayúsculas y minúsculas
Utilice esta opción para especificar si cada clave de grupo distingue entre mayúsculas y minúsculas o no; se establece en True de forma predeterminada, es decir, los valores "CASE" y "case" terminarán en grupos diferentes.
Categoría de agregación
- Tipo de agregación
- Elija el cálculo (el valor predeterminado), el recálculo o el recuento de filas.
- Columna para el cálculo
- Pulse Editar en la sección Agregaciones para seleccionar una columna para el cálculo. El tipo de agregado Calcular permite resumir el contenido de una columna o varias columnas en el conjunto de datos de entrada mediante la aplicación de una o varias funciones de agregado. Seleccione la columna que se va a agregar y, a continuación, seleccione las propiedades dependientes para especificar la operación que desee realizar en ella y la columna de salida para transportar el resultado. Puede utilizar el recuadro de diálogo Selección de columnas para seleccionar varias columnas para el cálculo a la vez, si es necesario).
- Columna de salida de recuento
- El tipo de agregado Recuento de filas realiza un recuento del número de registros dentro de cada grupo. Especifique la columna sobre la que se genera el recuento.
- Columna de resumen para recálculo
- Este tipo de agregado permite aplicar funciones de agregado a una columna que ya se ha resumido. Es como realizar un cálculo, pero realiza la operación de agregación especificada en un conjunto de datos que ya se ha resumido. En la práctica, significa que debería haber realizado una operación de cálculo (o recálculo) en una etapa Agregador anterior con la propiedad Resumen establecida para generar un subregistro que contenga los datos de resumen que se incluyen con el conjunto de datos. Seleccione la columna que se va a agregar y, a continuación, seleccione las propiedades dependientes para especificar la operación que desee realizar en ella y la columna de salida para transportar el resultado. Puede utilizar el recuadro de diálogo Selección de columnas para seleccionar varias columnas para el recálculo a la vez si es necesario).
- Columna de ponderación
- Configura la etapa para incrementar el recuento del grupo con el contenido de la columna de ponderación de cada registro del grupo, en lugar de con un valor 1. No está disponible para la columna de resumen para recálculo. El establecimiento de esta opción solo afecta a las siguientes opciones:
- Coeficiente de variación porcentual
- Valor medio
- Suma
- Suma de las ponderaciones
- Suma de cuadrados sin corregir
- Salida decimal como valor predeterminado
- El tipo de salida de una columna de cálculo o recálculo es doble. El establecimiento de esta propiedad hace que utilice el valor predeterminado de decimal. Puede especificar que algunas columnas individuales tengan una salida decimal y que otras conserven el tipo predeterminado de doble. También puede establecer una precisión y una escala predeterminadas.
Opciones
- Método
Su elección de modalidad depende principalmente del número de agrupaciones en el conjunto de datos de entrada, teniendo en cuenta la cantidad de memoria disponible. Normalmente se utiliza la modalidad hash para un número relativamente pequeño de grupos; en general, menos de 1000 grupos por megabyte de memoria a utilizar.
Cuando se utiliza la modalidad hash, debe particionar con hash los datos de entrada establecidos por una o varias de las columnas de clave de agrupación, para que todos los registros del mismo grupo estén en la misma partición. No obstante, el particionamiento hash no es obligatorio; puede utilizar cualquier método de particionamiento que desee si no es importante mantener los grupos juntos en una sola partición. Por ejemplo, si está sumando registros en cada partición y más adelante añadirá las sumas en todas las particiones, no es necesario que todos los registros de un grupo estén en la misma partición para poder hacerlo. No obstante, tenga en cuenta que habrá varios registros de salida para cada grupo.
Si el número de grupos es grande, lo que puede suceder si especifica muchas claves de agrupación o si algunas claves de agrupación pueden ser muchos valores, normalmente se utilizará la modalidad de ordenación. Sin embargo, la modalidad de ordenación requiere que las particiones del conjunto de datos de entrada se hayan ordenado con todas las claves de agrupación especificadas como hash y claves de ordenación (esto sucede automáticamente si se establece Automática en la pestaña Particionamiento). La ordenación requiere una operación de preagrupación: después de la ordenación, todos los registros en un determinado grupo en la misma partición son consecutivos.
La propiedad de método se establece en Hash de forma predeterminada.
Es posible que desee probar ambas modalidades con sus datos y aplicaciones particulares para determinar cuál ofrece el mejor rendimiento. Cuando calcula estadísticas sobre un gran número de grupos, es posible que la modalidad de ordenación funcione mejor que la modalidad hash, suponiendo que el conjunto de datos de entrada se pueda ordenar de forma eficiente antes de pasarse al grupo.
- Permitir salidas nulas
- Establezca este valor en True para indicar que nulo es un valor de salida válido cuando se calcula el valor mínimo, el valor máximo, el valor medio, la desviación estándar, el error estándar, la suma, la suma de ponderaciones y la varianza. Si es False, se sustituirá el 0 en el valor nulo cuando todos los valores de entrada para la columna de cálculo sean nulos. Es False de forma predeterminada.
Avanzado
- Modalidad de ejecución. La etapa se puede ejecutar en modalidad paralela o en modalidad secuencial. En modalidad paralela, el conjunto de datos de entrada se procesa en los nodos disponibles, tal como se especifica en el archivo de configuración, y según las restricciones de nodo especificadas en la sección Avanzado. En la modalidad secuencial, el nodo conductor procesa el conjunto de datos completo.
- Modalidad de combinabilidad. Es Automática de forma predeterminada, lo que permite a IBM DataStage combinar los operadores que subyacen en las etapas paralelas para que se ejecuten en el mismo proceso si es sensible a este tipo de etapa.
- Conservar particionamiento. Es Establecer de forma predeterminada. Puede seleccionar Establecer o Borrar. Si selecciona Establecer, la etapa solicitará que la siguiente etapa del trabajo intente mantener el particionamiento.