0 / 0
Volver a la versión inglesa de la documentación
Particionamiento y recopilación de datos en DataStage
Última actualización: 07 nov 2024
Particionamiento y recopilación de datos en DataStage

Utilice la sección Particionamiento en las etapas o conectores de DataStage® que tienen pestañas Entrada para especificar detalles sobre cómo la etapa o conector particiona o recopila datos en el enlace actual antes de procesar los datos o grabarlos en un destino de datos.

El particionamiento de datos es un enfoque al paralelismo que implica dividir el conjunto de registros en particiones o subconjuntos de registros. Si no hay restricciones de recursos u otros problemas de desvío de datos, el particionamiento de datos puede proporcionar incrementos lineales en el rendimiento de la aplicación. DataStage particiona automáticamente los datos basándose en el tipo de partición que requiere la etapa.

También puede utilizar la sección Particionamiento para ordenar datos que llegan al enlace de entrada antes de que los datos se procesen o se graben en el destino de datos. La disponibilidad de la ordenación depende del método de particionamiento o recopilación que se elija. No está disponible con los métodos Automáticos. La sección Particionamiento proporciona recursos de ordenación básicos. Para una operación de ordenación más compleja, utilice la etapa Clasificar.

La sección Particionamiento contiene los siguientes controles y campos:
Particionamiento
Elija el tipo de particionamiento de la lista.
La lista Tipo de partición está disponible si la Modalidad de ejecución se establece en paralelo en la pestaña Etapa. Si selecciona un método en la lista, el método altera temporalmente cualquier método de particionamiento actual.
Están disponibles los siguientes tipos de particionamiento:
(Automático)
En el tiempo de ejecución, el motor intenta determinar el mejor método de particionamiento, dependiendo de:
  • Si las etapas actual y anterior están establecidas para ejecutarse en modalidad secuencial o en modalidad paralela.
  • Si las etapas anteriores del trabajo tienen el conjunto de opciones Conservar el particionamiento.
  • Cuántos nodos se especifican en el archivo de configuración.
Automático es el método predeterminado para la mayoría de las etapas, pero Automático no está disponible para la etapa Conjunto de archivos de búsqueda o para la etapa Db2 Enterprise.
DB2 Connector
Este tipo de partición sólo está disponible para el conector IBM Db2 for DataStage . Cuando se especifica este método, el conector determina el número de particiones de la tabla que se especifica en la propiedad Método de lecturas particionadas > Nombre de tabla y configura dinámicamente el número de nodos para que coincidan con el número de particiones. Para las tablas de Db2® for LUW (Linux, Unix y Windows), este número es el número de particiones DPF (Database Partitioning Feature) que están en la tabla. Para las tablas Db2 for z/OS® , este número es el número de particiones de tabla de la tabla. El conector asocia cada nodo con una partición. Para cada nodo, el conector lee las filas que pertenecen a la partición que está asociada con ese nodo.
Entero
Cada nodo de proceso recibe el conjunto de datos completo.
Aleatoria
Las filas se particionan de forma aleatoria, según la salida de un generador de números aleatorios.
Iteración cíclica
Las filas se particionan de mediante iteración cíclica a medida que entran en la etapa.
Igual
Este método conserva las particiones de datos actuales.
Módulo
Las filas se particionan utilizando una función de módulo en la columna de clave.
Hash
Las filas se ocultan en particiones basándose en el valor de una o más columnas de clave.
Rango
Este método divide un conjunto de datos en particiones de un tamaño aproximadamente equivalente basándose en una o varias claves de particionamiento. El particionamiento de rangos es a menudo un paso preparatorio para realizar una clasificación total en un conjunto de datos.
Recopilación
Elija el tipo de recopilación de la lista.

La lista Tipo de recopilación está disponible si la etapa se establece para ejecutarse en modalidad secuencial, y la etapa anterior se establece para ejecutarse en modalidad paralela. Si selecciona un método en la lista, el método altera temporalmente el método de recopilación predeterminado de Automático.

Están disponibles los siguientes tipos de recopilación:
(Automático)
El método Automático normalmente hace que la etapa lea cualquier fila de cualquier partición de entrada cuando la fila pasa a estar disponible y es el método de recopilación más rápido. Sin embargo, la etapa puede utilizar un método de recopilación diferente cuando Automático está establecido para ejecutarse en algunas circunstancias. Por ejemplo, si la etapa requiere que los datos estén ordenados para poder funcionar, la etapa ordena los datos.
Ordenado
Este método lee todas las filas de la primera partición, después todas las filas de la segunda partición, y así sucesivamente.
Iteración cíclica
Este método lee una fila de la primera partición de entrada, después una fila de la segunda partición, y así sucesivamente. Después de llegar a la última partición, la etapa se inicia de nuevo desde la primera partición.
Fusión de listas ordenadas
Este método lee las filas en un orden basado en una o más columnas de la fila.
Ordenación
Utilice estos controles para especificar cómo ordenar los datos. Los datos siempre se ordenan dentro de las particiones de datos. Si la etapa particiona datos de entrada, los datos se ordenan después del particionamiento. Si la etapa está recopilando datos de entrada, los datos se ordenan antes de la recopilación.
Ordenar
Seleccione Realizar ordenación para ordenar los datos que se encuentran en el enlace.
Estable
Seleccione Estable si desea conservar los conjuntos de datos ordenados previamente. Se establece en Estable de forma predeterminada.
Exclusivo
Seleccione Exclusivo si desea conservar sólo un registro por valor de clave de ordenación. Si varios registros tienen valores de clave de ordenación idénticos, se descartan todos los registros, menos uno. Si también se establece una ordenación estable, el primer registro con el valor de clave de ordenación es el registro que se retiene.

Archivos de configuración generados dinámicamente en DataStage

DataStage no soporta archivos de configuración generados por el usuario. Puede proporcionar el número de particiones para los archivos de configuración generados dinámicamente estableciendo el recuento de particiones en el entorno de ejecución o estableciendo la variable de entorno ' APT_WLM_PARTITION_COUNT ' para el número de particiones.