Utilice la sección Particionamiento en las etapas o conectores de DataStage® que tienen pestañas Entrada para especificar detalles sobre cómo la etapa o conector particiona o recopila datos en el enlace actual antes de procesar los datos o grabarlos en un destino de datos.
El particionamiento de datos es un enfoque al paralelismo que implica dividir el conjunto de registros en particiones o subconjuntos de registros. Si no hay restricciones de recursos u otros problemas de desvío de datos, el particionamiento de datos puede proporcionar incrementos lineales en el rendimiento de la aplicación. DataStage particiona automáticamente los datos basándose en el tipo de partición que requiere la etapa.
También puede utilizar la sección Particionamiento para ordenar datos que llegan al enlace de entrada antes de que los datos se procesen o se graben en el destino de datos. La disponibilidad de la ordenación depende del método de particionamiento o recopilación que se elija. No está disponible con los métodos Automáticos. La sección Particionamiento proporciona recursos de ordenación básicos. Para una operación de ordenación más compleja, utilice la etapa Clasificar.
La sección
Particionamiento contiene los siguientes controles y campos:
- Particionamiento
- Elija el tipo de particionamiento de la lista.
- La lista Tipo de partición está disponible si la Modalidad de ejecución se establece en paralelo en la pestaña Etapa. Si selecciona un método en la lista, el método altera temporalmente cualquier método de particionamiento actual.
- Están disponibles los siguientes tipos de particionamiento:
- (Automático)
- En el tiempo de ejecución, el motor intenta determinar el mejor método de particionamiento, dependiendo de:
- Si las etapas actual y anterior están establecidas para ejecutarse en modalidad secuencial o en modalidad paralela.
- Si las etapas anteriores del trabajo tienen el conjunto de opciones Conservar el particionamiento.
- Cuántos nodos se especifican en el archivo de configuración.
- Automático es el método predeterminado para la mayoría de las etapas, pero Automático no está disponible para la etapa Conjunto de archivos de búsqueda o para la etapa Db2 Enterprise.
- DB2 Connector
- Este tipo de partición sólo está disponible para el conector IBM Db2 for DataStage . Cuando se especifica este método, el conector determina el número de particiones de la tabla que se especifica en la propiedad y configura dinámicamente el número de nodos para que coincidan con el número de particiones. Para las tablas de Db2® for LUW (Linux, Unix y Windows), este número es el número de particiones DPF (Database Partitioning Feature) que están en la tabla. Para las tablas Db2 for z/OS® , este número es el número de particiones de tabla de la tabla. El conector asocia cada nodo con una partición. Para cada nodo, el conector lee las filas que pertenecen a la partición que está asociada con ese nodo.
- Entero
- Cada nodo de proceso recibe el conjunto de datos completo.
- Aleatoria
- Las filas se particionan de forma aleatoria, según la salida de un generador de números aleatorios.
- Iteración cíclica
- Las filas se particionan de mediante iteración cíclica a medida que entran en la etapa.
- Igual
- Este método conserva las particiones de datos actuales.
- Módulo
- Las filas se particionan utilizando una función de módulo en la columna de clave.
- Hash
- Las filas se ocultan en particiones basándose en el valor de una o más columnas de clave.
- Rango
- Este método divide un conjunto de datos en particiones de un tamaño aproximadamente equivalente basándose en una o varias claves de particionamiento. El particionamiento de rangos es a menudo un paso preparatorio para realizar una clasificación total en un conjunto de datos.
- Recopilación
- Elija el tipo de recopilación de la lista.
La lista Tipo de recopilación está disponible si la etapa se establece para ejecutarse en modalidad secuencial, y la etapa anterior se establece para ejecutarse en modalidad paralela. Si selecciona un método en la lista, el método altera temporalmente el método de recopilación predeterminado de Automático.
- Están disponibles los siguientes tipos de recopilación:
- (Automático)
- El método Automático normalmente hace que la etapa lea cualquier fila de cualquier partición de entrada cuando la fila pasa a estar disponible y es el método de recopilación más rápido. Sin embargo, la etapa puede utilizar un método de recopilación diferente cuando Automático está establecido para ejecutarse en algunas circunstancias. Por ejemplo, si la etapa requiere que los datos estén ordenados para poder funcionar, la etapa ordena los datos.
- Ordenado
- Este método lee todas las filas de la primera partición, después todas las filas de la segunda partición, y así sucesivamente.
- Iteración cíclica
- Este método lee una fila de la primera partición de entrada, después una fila de la segunda partición, y así sucesivamente. Después de llegar a la última partición, la etapa se inicia de nuevo desde la primera partición.
- Fusión de listas ordenadas
- Este método lee las filas en un orden basado en una o más columnas de la fila.
- Ordenación
- Utilice estos controles para especificar cómo ordenar los datos. Los datos siempre se ordenan dentro de las particiones de datos. Si la etapa particiona datos de entrada, los datos se ordenan después del particionamiento. Si la etapa está recopilando datos de entrada, los datos se ordenan antes de la recopilación.
- Ordenar
- Seleccione Realizar ordenación para ordenar los datos que se encuentran en el enlace.
- Estable
- Seleccione Estable si desea conservar los conjuntos de datos ordenados previamente. Se establece en Estable de forma predeterminada.
- Exclusivo
- Seleccione Exclusivo si desea conservar sólo un registro por valor de clave de ordenación. Si varios registros tienen valores de clave de ordenación idénticos, se descartan todos los registros, menos uno. Si también se establece una ordenación estable, el primer registro con el valor de clave de ordenación es el registro que se retiene.
Archivos de configuración generados dinámicamente en DataStage
DataStage no soporta archivos de configuración generados por el usuario. Puede proporcionar el número de particiones para los archivos de configuración generados dinámicamente estableciendo el recuento de particiones en el entorno de ejecución o estableciendo la variable de entorno ' APT_WLM_PARTITION_COUNT
' para el número de particiones.