0 / 0
Volver a la versión inglesa de la documentación
Inicio rápido: Transformar datos

Inicio rápido: Transformar datos

Puede integrar, limpiar y analizar datos de diferentes orígenes de datos utilizando un flujo de DataStage. Lea acerca de la herramienta DataStage y, a continuación, vea un vídeo y siga una guía de aprendizaje adecuada para los usuarios con algún conocimiento de la transformación de datos, pero que no requiere codificación.

Servicios necesarios
Watson Studio
DataStage

El flujo de trabajo básico incluye estas tareas:

  1. Cree un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
  2. Añada sus datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
  3. Cree un flujo de DataStage.
  4. Realice los pasos utilizando operaciones para refinar los datos.
  5. Cree y ejecute un trabajo para transformar los datos.

Obtener información sobre DataStage

DataStage es una herramienta de extracción, transformación y carga (ETL) que puede utilizar para transformar e integrar datos en proyectos.

DataStage está diseñado para facilidad su uso y está totalmente integrado en Cloud Pak for Data. Puede importar los trabajos paralelos existentes de herencia a DataStage mediante el uso de archivos ISX, utilizar el lienzo de DataStage para crear, editar y probar flujos y ejecutar trabajos que se generan a partir de los flujos.

Leer más sobre DataStage

Vea un vídeo sobre la transformación de datos utilizando un flujo de DataStage

Ver vídeo Vea este vídeo para ver cómo crear un flujo simple de DataStage.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.


Pruebe un tutorial para transformar los datos

En esta guía de aprendizaje, realizará estas tareas:

Le llevará aproximadamente 20 minutos el completar esta guía de aprendizaje.





Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.

Utilizar la imagen en imagen de vídeo

Sugerencia: Inicie el vídeo y, a continuación, a medida que se desplaza por el tutorial, el vídeo pasa al modo de imagen en imagen. Cierre la tabla de contenido de vídeo para obtener la mejor experiencia con la imagen en imagen. Puede utilizar el modo de imagen en imagen para poder seguir el vídeo mientras completa las tareas de este tutorial. Pulse las indicaciones de fecha y hora para cada tarea a seguir.

La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:

Cómo utilizar la imagen en la imagen y los capítulos

Obtener ayuda en la comunidad

Si necesita ayuda con esta guía de aprendizaje, puede formular una pregunta o encontrar una respuesta en el foro de discusión de la comunidad deCloud Pak for Data.

Configurar las ventanas del navegador

Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.

Guía de aprendizaje en paralelo e interfaz de usuario

Sugerencia: Si encuentra una visita guiada al completar esta guía de aprendizaje en la interfaz de usuario, pulse Quizás más tarde.



Tarea 1: Abrir un proyecto

Necesita un proyecto para almacenar el conjunto de datos y el flujo de DataStage , y necesita suministrar el servicio DataStage . Siga estos pasos para abrir un proyecto existente o crear un proyecto nuevo y suministrar el servicio:

  1. En el Cloud Pak for Data menú de navegación Menú de navegación, elija Proyectos > Ver todos los proyectos

  2. Si tiene un proyecto existente, ábralo.

  3. Si no tiene un proyecto existente, pulse Nuevo proyecto.

  4. Seleccione Crear un proyecto vacío.

  5. Especifique un nombre y una descripción opcional para el proyecto.

  6. Pulse Crear.

  7. En el Menú de navegación Menú de navegación, pulse Servicios > Instancias de servicio.

  8. Pulse Añadir servicio y seleccione Datastage.

  9. Pulse Crear. Verá el servicio suministrado en la página Instancias de servicio.

Para obtener más información o ver un vídeo, consulte Creación de un proyecto.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra los servicios suministrados.

La imagen siguiente muestra los servicios suministrados.




Tarea 2: Añadir el conjunto de datos al proyecto

El conjunto de datos utilizado en esta guía de aprendizaje está disponible en el concentrador de recursos. Siga estos pasos para buscar el conjunto de datos en el concentrador de recursos y añadirlo al proyecto:

  1. Acceda al conjunto de datos Clientes en el concentrador de recursos.

  2. Pulse Añadir al proyecto.

  3. Seleccione el proyecto en la lista y pulse Añadir.

  4. Después de añadir el conjunto de datos, pulse Ver proyecto.

Para obtener más información sobre cómo añadir activos de datos desde el concentrador de recursos al proyecto, consulte Carga y acceso a datos en un cuaderno.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra el separador Activos en el proyecto.

La imagen siguiente muestra la pestaña Activos en el proyecto.




Tarea 3: Crear un flujo de DataStage

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 00:26.

El flujo de DataStage contendrá cuatro nodos: el activo de datos original, un nodo de filtro, un nodo de clasificación y el activo de datos transformado. Siga estos pasos para crear el flujo de DataStage :

  1. Hacer clic Nuevo activo > Transformar e integrar datos .

  2. Proporcione un nombre y una descripción y luego pulse Crear.

  3. Pulse Conectores y luego arrastre y suelte el nodo Navegador de activos en el lienzo.

  4. Seleccione Activo de datos > customers.csv y pulse Añadir.

  5. En la Paleta de nodos, expanda la sección Etapas y arrastre el nodo Filtrar al lienzo.

  6. Para enlazar los nodos, pulse la flecha azul en el nodo Customers.csv y arrástrelo al nodo Filtrar .

  7. En la sección Etapas, arrastre el nodo Clasificar al lienzo.

  8. Conecte el nodo Filtro al nodo Clasificar.

  9. Expanda la sección Conectores y, a continuación, arrastre el nodo Navegador de activos en el lienzo.

  10. Seleccione Activo de datos > customers.csv y pulse Añadir. Puede cambiar el nombre de archivo más adelante para no sobrescribir el archivo customer.csv.

  11. Conecte el nodo Ordenar a este último nodo Customers.csv .

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra el flujo de DataStage inicial.

La imagen siguiente muestra el flujo inicial de DataStage .




Tarea 4: Editar los nodos

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 03:27.

Siga estos pasos para editar las propiedades de cada nodo del lienzo:

Nodo 1: Editar el primer nodo de navegador de activos

  1. Efectúe una doble pulsación en el primer nodo Customer.csv .

  2. En el panel Propiedades de la derecha, cambie el nombre del nodo por Customer Table para cambiar el nombre del nodo de activo.

  3. Pulse la pestaña Salida.

  4. Expanda la sección Columnas y pulse Editar.

  5. Para la columna YTD_SALES, pulse VARCHAR y seleccione DECIMAL para cambiar el tipo de datos de la columna YTD_SALES.

  6. Pulse Aplicar y volver para volver al panel Propiedades.

  7. Pulse Guardar para guardar los cambios en el nodo Tabla de clientes.

Nodo 2: Editar el nodo Filtrar

  1. Efectúe una doble pulsación en el nodo Filtro.

  2. En el panel Propiedades, cambie el nombre del texto Filter_1 por Filter YTD Sales para cambiar el nombre del nodo de filtro.

  3. Expanda la sección Propiedades. En Predicados, pulse Editar.

    1. Pulse Añadir cláusula where.

    2. En la columna Cláusula where , escriba YTD_SALES > 1000.

    3. Pulse Aplicar y volver.

  4. Pulse la pestaña Salida.

  5. Expanda la sección Columnas y pulse Editar.

    1. Seleccione toda la columna y deseleccione las siguientes columnas listadas más abajo que se conservarán para esta guía de aprendizaje.

      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    2. Pulse el icono de papelera para suprimir las columnas seleccionadas restantes.

    3. Para la columna CUSTNAME, cambie el nombre por CUSTOMERNAME. Este cambio se propagará a los nodos que siguen al nodo Filtro.

    4. Pulse Aplicar y volver para volver al panel Propiedades.

  6. Pulse Guardar para guardar los cambios en el nodo Filtro.

Nodo 3: Editar el nodo Ordenar

  1. Efectúe una doble pulsación en el nodo Clasificar.

  2. En el panel Propiedades, cambie el nombre del texto Sort_1 por Sort YTD Sales para cambiar el nombre del nodo de clasificación.

  3. Expanda la sección Propiedades.

  4. En Claves de clasificación, pulse Editar.

    1. Pulse Añadir clave.

    2. En el menú desplegable Clave, seleccione YTD_SALES.

    3. Para Orden de clasificación, seleccione Descendente.

    4. Pulse Aplicar para volver a la lista de claves de clasificación.

    5. Pulse Aplicar y volver para volver al panel Propiedades.

  5. Pulse la pestaña Entrada y expanda la sección Columnas para verificar que el cambio de nombre de la columna CUSTOMERNAME se ha propagado desde el nodo Filtrar.

  6. Pulse la pestaña Salida y expanda la sección Columnas para verificar que el cambio de nombre de la columna CUSTOMERNAME se ha propagado desde el nodo Filtrar.

  7. Pulse Guardar para guardar los cambios en el nodo Clasificar.

Nodo 4: Editar el último nodo de navegador de activos

  1. Efectúe una doble pulsación en el último nodo Customers.csv .

  2. En el panel Propiedades , cambie el nombre del nodo por Customer filtered table para cambiar el nombre del nodo de activo.

  3. Expanda la sección Propiedades y seleccione el recuadro de selección Crear activo de datos.

  4. Para el campo Nombre del activo de datos, escriba Customers filtered y pulse Guardar.

  5. Pulse la pestaña Entrada y expanda la sección Columnas para verificar que el cambio de nombre de la columna CUSTOMERNAME se ha propagado desde el nodo Filtrar.

  6. Pulse Guardar para guardar los cambios en el nodo Tabla de clientes filtrados .

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra el flujo final de DataStage .

La imagen siguiente muestra el flujo final de DataStage .




Tarea 5: Ejecutar el flujo de DataStage y ver el activo

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 06:36.

Ahora está preparado para ejecutar el flujo. Siga estos pasos para ejecutar el flujo y ver el activo transformado en el proyecto:

  1. Pulse Guardar.

  2. Pulse Compilar.

  3. Pulse Ejecutar.

  4. (Opcional) Pulse el enlace Registro para ver los detalles de ejecución.

  5. Efectúe una doble pulsación en el último nodo Tabla de clientes filtrados .

  6. Expanda la sección Propiedades.

  7. Desplácese hacia abajo y pulse Vista preliminar de los datos. Puede ver que los datos se han filtrado y clasificado correctamente.

    1. Pulse el panel Gráfico .

    2. Para las Columnas a visualizar, seleccione YTD_SALES.

    3. Para el Tipo de gráfico, pulse Gráfico Q-Q.

    4. Pulse Cerrar.

  8. Puesto que ha configurado el flujo para crear un activo de datos en el proyecto, pulse el nombre del proyecto en la pista de navegación para volver al proyecto.

  9. En la pestaña Activos , abra el activo Clientes filtrados .

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra el activo de datos filtrado de clientes.

La imagen siguiente muestra el activo de datos filtrados de los clientes.



Próximos pasos

Ahora los datos están listos para ser utilizados. Por ejemplo, usted u otros usuarios pueden realizar cualquiera de estas tareas:

Recursos adicionales

Tema principal: Guías de aprendizaje de inicio rápido

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información