Ordenar etapa en DataStage
La etapa Clasificar se utiliza para realizar operaciones de ordenación más complejas de las que se proporcionan en las secciones Particionamiento de la página Entrada de los editores de etapa de trabajo paralelo.
La etapa Clasificar es una etapa de proceso. También puede utilizar la etapa Clasificar para insertar una operación de ordenación simple más explícita donde desee que su trabajo sea más fácil de entender. La etapa Clasificar tiene un solo enlace de entrada que transporta los datos que se van a ordenar y un solo enlace de salida que transporta los datos ordenados.
Las claves de ordenación se especifican como criterios por los que se realiza la ordenación. Una clave es una columna por la que se ordenan los datos, por ejemplo, si tiene una columna de nombre, puede especificarla como clave de ordenación para generar una lista alfabética de nombres. La primera columna que se especifica como clave en la etapa es la clave primaria, pero puede especificar claves secundarias adicionales. Si varias filas tienen el mismo valor para la columna de clave primaria, IBM® DataStage® utiliza las columnas secundarias para ordenar estas filas.
Puede clasificar en modalidad secuencial para ordenar un conjunto de datos completo o en modalidad paralela para ordenar los datos dentro de las particiones, como se muestra en la siguiente imagen:

Puede realizar una ordenación por varios motivos. Por ejemplo, puede que desee ordenar un conjunto de datos por una columna de código postal y, a continuación, por apellido dentro del código postal. Una vez ordenado el conjunto de datos, puede filtrar el conjunto de datos comparando los registros adyacentes y eliminando los duplicados.
No obstante, tenga cuidado cuando procese un conjunto de datos ordenado: muchos tipos de proceso, como el reparticionamiento, pueden destruir el orden de clasificación de los datos. Por ejemplo, supongamos que ordena un conjunto de datos en un sistema con cuatro nodos de proceso y almacena los resultados en una etapa Data Set. Como resultado, el conjunto de datos tendrá cuatro particiones. A continuación, puede utilizar dicho conjunto de datos como entrada para una etapa que se ejecuta en un número distinto de nodos, posiblemente debido a restricciones de nodo. IBM DataStage reparticiona automáticamente un conjunto de datos para distribuir el conjunto de datos en todos los nodos del sistema, a menos que se lo indique, posiblemente destruyendo el orden de clasificación de los datos. Para evitarlo, especifique el método Mismo particionamiento. La etapa no realiza ningún reparticionamiento, ya que lee el conjunto de datos de entrada; las particiones originales se conservan.
Tenga cuidado también cuando utilice una etapa que opera secuencialmente para procesar un conjunto de datos ordenado. Una etapa secuencial se ejecuta en un solo nodo de proceso para realizar su acción. Las etapas secuenciales recopilarán datos en los que el conjunto de datos tiene más de una partición, lo que también puede destruir el orden de clasificación del conjunto de datos de entrada. Para que esto no ocurra, especifique el método de colección de la siguiente manera:
- Si los datos se han particionado por rangos antes de ordenarse, debe utilizar el método de colección ordenado para conservar el orden de clasificación del conjunto de datos. El uso de este método de colección hace que se lean primero todos los registros de la primera partición de un conjunto de datos, después todos los registros de la segunda partición, y así sucesivamente.
- Si los datos se han particionado por hash antes de ordenarse, debe utilizar el método de colección de fusión de listas ordenadas especificando las mismas claves de colección por las que se han particionado los datos.
De forma predeterminada, la etapa se ordenará con el clasificador nativo de IBM DataStage , pero también puede especificar que utilice el mandato sort de UNIX.
El editor de etapas tiene tres páginas:
- Etapa. Siempre está presente y se utiliza para especificar información general sobre la etapa.
- Pestaña Entrada. Aquí es donde se especifican los detalles sobre los conjuntos de datos que se están ordenando.
- Pestaña Salida. Aquí es donde se especifican los detalles sobre los datos clasificados que se van a generar desde la etapa.
Vea el siguiente vídeo para ver un ejemplo de cómo trabajar con la etapa de clasificación de DataStage .
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Pestaña Entrada
La sección Columnas especifica las definiciones de columna de los datos de entrada. La sección Avanzado permite cambiar los valores de almacenamiento intermedio predeterminados para el enlace de entrada.
Pestaña Salida
La etapa Clasificar solo puede tener un enlace de salida.
La sección de columna Correlaciones de entrada de columna que aparece al pulsar Editar en la sección de columnas permite especificar la relación entre las columnas de entrada en la etapa Clasificar y las columnas de salida. Aquí puede especificar cómo se derivan las columnas de salida, es decir, qué columnas de entrada se correlacionan con ellas o cómo se generan. La sección Avanzado permite cambiar los valores de almacenamiento intermedio predeterminados de los enlaces de salida.