Inicio rápido: Transformar datos

Puede integrar, limpiar y analizar datos de diferentes orígenes de datos utilizando un flujo de DataStage. Lea acerca de la herramienta DataStage y, a continuación, vea un vídeo y siga una guía de aprendizaje adecuada para los usuarios con algún conocimiento de la transformación de datos, pero que no requiere codificación.

Servicio necesario DataStage

El flujo de trabajo básico incluye estas tareas:

  1. Cree un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
  2. Añada sus datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
  3. Cree un flujo de DataStage.
  4. Realice los pasos utilizando operaciones para refinar los datos.
  5. Cree y ejecute un trabajo para transformar los datos.

Obtener información sobre DataStage

DataStage es una herramienta de extracción, transformación y carga (ETL) que puede utilizar para transformar e integrar datos en proyectos.

DataStage se ha diseñado para facilitar su uso y está totalmente integrado en Cloud Pak for Data. Puede importar los trabajos paralelos existentes de herencia a DataStage mediante el uso de archivos ISX, utilizar el lienzo de DataStage para crear, editar y probar flujos y ejecutar trabajos que se generan a partir de los flujos.

Leer más sobre DataStage

Vea un vídeo sobre la transformación de datos utilizando un flujo de DataStage

Ver vídeo Vea este vídeo para ver cómo crear un flujo simple de DataStage.

Este vídeo proporciona un método visual como una alternativa a seguir los pasos escritos incluidos en esta documentación.

Pruebe un tutorial para transformar los datos

En esta guía de aprendizaje, hará lo siguiente:

  • Cree un proyecto.
  • Suministre el servicio de DataStage.
  • Añada un conjunto de datos a su proyecto desde la Galería.
  • Cree un flujo de DataStage.
  • Ejecute el flujo de datos y visualice el activo.

Le llevará aproximadamente 20 minutos el completar esta guía de aprendizaje.

Paso 1: Crear un proyecto y añadir el servicio de DataStage

{: #step1} Necesita un proyecto para almacenar el conjunto de datos y el flujo de DataStage.

  1. Si tiene un proyecto existente, ábralo. Si no tiene un proyecto existente, pulse Crear un proyecto en la página de inicio o pulse Nuevo proyecto en la página Proyectos.
  2. Seleccione Crear un proyecto vacío.
  3. En la pantalla Crear un proyecto, añada un nombre y una descripción opcional para el proyecto.
  4. Elija una instancia de servicio de almacenamiento de objetos existente o cree una nueva.
  5. Pulse Crear.
  6. En el menú de navegación, pulse Servicios > Instancias de servicio.
  7. Pulse Añadir servicio y seleccione Datastage.
  8. Pulse Crear. Verá el servicio suministrado en la página Instancias de servicio.

Para obtener más información o ver un vídeo, consulte Creación de un proyecto.

Paso 2: Añadir el conjunto de datos al proyecto

{: #step2} El conjunto de datos utilizado en esta guía de aprendizaje está disponible en la Galería.

  1. Acceda a Conjunto de datos de clientes en la Galería.
  2. Pulse Añadir al proyecto.
  3. Seleccione el proyecto en la lista y pulse Añadir.
  4. Después de añadir el conjunto de datos, pulse Ver proyecto.

Para obtener más información sobre cómo añadir activos de datos de la Galería al proyecto, consulte Carga y acceso a datos en un cuaderno.

Paso 3: Crear un flujo de Datastage

{: #step3} El flujo de DataStage contendrá cuatro nodos: el activo de datos original, un nodo de filtro, un nodo de clasificación y el activo de datos transformado.

  1. Pulse Añadir al proyecto > Flujo de datos.
  2. Proporcione un nombre y una descripción y luego pulse Crear.
  3. Pulse Conectores y luego arrastre y suelte el nodo Navegador de activos en el lienzo.
  4. Seleccione Activo de datos > customers.csv y pulse Añadir.
  5. En la Paleta de nodos, expanda la sección Etapas y arrastre el nodo Filtrar al lienzo.
  6. Para enlazar nodos, pulse la flecha azul del nodo Customers.csv_1 y arrástrela al nodo Filtro.
  7. En la sección Etapas, arrastre el nodo Clasificar al lienzo.
  8. Conecte el nodo Filtro al nodo Clasificar.
  9. Expanda la sección Conectores y, a continuación, arrastre el nodo Navegador de activos en el lienzo.
  10. Seleccione Activo de datos > customers.csv y pulse Añadir. Puede cambiar el nombre de archivo más adelante para no sobrescribir el archivo customer.csv.
  11. Conecte el nodo Clasificar al nodo Customers.csv_2.

Paso 4: Editar los nodos

{: #step4} Ahora edite las propiedades de cada nodo en el lienzo.

  1. Edite el primer nodo del navegador de activos:
    1. Efectúe una doble pulsación en el primer nodo Customer.csv_1.
    2. En el panel Propiedades de la derecha, cambie el nombre del texto customers.csv_1 por Customer Table para cambiar el nombre del nodo de activo.
    3. Pulse la pestaña Salida.
    4. Expanda la sección Columnas y pulse Editar.
    5. Para la columna YTD_SALES, pulse VARCHAR y seleccione DECIMAL para cambiar el tipo de datos de la columna YTD_SALES.
    6. Pulse Aplicar y volver para volver al panel Propiedades.
    7. Pulse Guardar para guardar los cambios en el nodo Tabla de clientes.
  2. Edite el nodo Filtrar:
    1. Efectúe una doble pulsación en el nodo Filtro.
    2. En el panel Propiedades, cambie el nombre del texto Filter_1 por Filter YTD Sales para cambiar el nombre del nodo de filtro.
    3. Expanda la sección Propiedades. En Predicados, pulse Editar.
      1. Pulse Añadir cláusula where.
      2. En la columna Cláusula where, escriba YTD_SALES > 1000.
      3. Pulse Aplicar y volver.
    4. Pulse la pestaña Salida.
    5. Expanda la sección Columnas y pulse Editar.
    6. Seleccione toda la columna y deseleccione las siguientes columnas listadas más abajo que se conservarán para esta guía de aprendizaje.
      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    7. Pulse el icono de papelera para suprimir las columnas seleccionadas restantes.
    8. Para la columna CUSTNAME, cambie el nombre por CUSTOMERNAME. Este cambio se propagará a los nodos que siguen al nodo Filtro.
    9. Pulse Aplicar y volver para volver al panel Propiedades.
    10. Pulse Guardar para guardar los cambios en el nodo Filtro.
  3. Edite el nodo Ordenar:
    1. Efectúe una doble pulsación en el nodo Clasificar.
    2. En el panel Propiedades, cambie el nombre del texto Sort_1 por Sort YTD Sales para cambiar el nombre del nodo de clasificación.
    3. Expanda la sección Propiedades.
    4. En Claves de clasificación, pulse Editar.
    5. Pulse Añadir clave.
    6. En el menú desplegable Clave, seleccione YTD_SALES.
    7. Para Orden de clasificación, seleccione Descendente.
    8. Pulse Aplicar para volver a la lista de claves de clasificación.
    9. Pulse Aplicar y volver para volver al panel Propiedades.
    10. Pulse la pestaña Entrada y expanda la sección Columnas para verificar que el cambio de nombre de columna de CUSTOMERNAME se ha propagado desde el nodo de Filtro.
    11. Pulse la pestaña Salida y expanda la sección Columnas para verificar que el cambio de nombre de columna de CUSTOMERNAME se ha propagado desde el nodo de Filtro.
    12. Pulse Guardar para guardar los cambios en el nodo Clasificar.
  4. Edite el último nodo del explorador de activos:
    1. Efectúe una doble pulsación en el último nodo de Customers.csv_2.
    2. En el panel Propiedades, cambie el nombre del texto Customers.csv_2 por Customer filtered table para cambiar el nombre del nodo de activo.
    3. Expanda la sección Propiedades y seleccione el recuadro de selección Crear activo de datos.
    4. Para el campo Nombre del activo de datos, escriba Customers filtered y pulse Guardar.
    5. Pulse la pestaña Entrada y expanda la sección Columnas para verificar que el cambio de nombre de columna de CUSTOMERNAME se ha propagado desde el nodo de Filtro.
    6. Pulse Guardar para guardar los cambios en el nodo Customer_filtered.

Paso 5: Ejecutar el flujo de DataStage y ver el activo

{: #step5} Después de ejecutar el flujo, podrá ver el activo transformado en el proyecto.

  1. Pulse Guardar.
  2. Pulse Compilar.
  3. Pulse Ejecutar.
  4. (Opcional) Pulse el enlace Registro para ver los detalles de ejecución.
  5. Vuelva al proyecto y pulse la pestaña Activos.
  6. Ver el activo de Clientes filtrados. Puede ver que los datos se han filtrado y clasificado correctamente.

Próximos pasos

Ahora los datos están listos para ser utilizados. Por ejemplo, usted u otros usuarios pueden realizar cualquiera de estas tareas:

Recursos

adicionales

Tema principal: Cómo empezar con la preparación de datos