0 / 0
Volver a la versión inglesa de la documentación
Inicio rápido: Transformar datos
Última actualización: 06 dic 2024
Inicio rápido: Transformar datos

Puede integrar, limpiar y analizar datos de diferentes orígenes de datos utilizando un flujo de DataStage. Lea acerca de la herramienta DataStage y, a continuación, vea un vídeo y siga una guía de aprendizaje adecuada para los usuarios con algún conocimiento de la transformación de datos, pero que no requiere codificación.

Servicios necesarios
estudio watsonx.ai
DataStage

El flujo de trabajo básico incluye estas tareas:

  1. Cree un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
  2. Añada sus datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
  3. Cree un flujo de DataStage.
  4. Realice los pasos utilizando operaciones para refinar los datos.
  5. Cree y ejecute un trabajo para transformar los datos.

Obtener información sobre DataStage

DataStage es una herramienta de extracción, transformación y carga (ETL) que puede utilizar para transformar e integrar datos en proyectos.

DataStage está diseñado para facilitar su uso y está totalmente integrado en la plataforma. Puede importar los trabajos paralelos existentes de herencia a DataStage mediante el uso de archivos ISX, utilizar el lienzo de DataStage para crear, editar y probar flujos y ejecutar trabajos que se generan a partir de los flujos.

Leer más sobre DataStage

Vea un vídeo sobre la transformación de datos utilizando un flujo de DataStage

Ver vídeo Vea este vídeo para ver cómo crear un flujo simple de DataStage.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.


Pruebe un tutorial para transformar los datos

En esta guía de aprendizaje, realizará estas tareas:

Le llevará aproximadamente 20 minutos el completar esta guía de aprendizaje.





Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.

Utilizar la imagen en imagen de vídeo

Sugerencia: Inicie el vídeo y, a continuación, a medida que se desplaza por el tutorial, el vídeo pasa al modo de imagen en imagen. Cierre la tabla de contenido de vídeo para obtener la mejor experiencia con la imagen en imagen. Puede utilizar el modo de imagen en imagen para poder seguir el vídeo mientras completa las tareas de este tutorial. Pulse las indicaciones de fecha y hora para cada tarea a seguir.

La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:

Cómo utilizar la imagen en la imagen y los capítulos

Obtener ayuda en la comunidad

Si necesita ayuda con este tutorial, puede hacer una pregunta o encontrar una respuesta en el foro de debate de la Comunidad deCloud Pak for Data.

Configurar las ventanas del navegador

Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.

Guía de aprendizaje en paralelo e interfaz de usuario

Sugerencia: Si encuentra una visita guiada al completar esta guía de aprendizaje en la interfaz de usuario, pulse Quizás más tarde.



Tarea 1: Abrir un proyecto

Necesita un proyecto para almacenar el conjunto de datos y el flujo de DataStage , y necesita suministrar el servicio DataStage . Siga estos pasos para abrir un proyecto existente o crear un proyecto nuevo y suministrar el servicio:

  1. En el menú de navegación ' Menú de navegación, seleccione Proyectos > Ver todos los proyectos

  2. Si tiene un proyecto existente, ábralo.

  3. Si no tiene un proyecto existente, pulse Nuevo proyecto.

  4. Seleccione Crear un proyecto vacío.

  5. Especifique un nombre y una descripción opcional para el proyecto.

  6. Pulse Crear.

  7. En el menú de navegación ' Menú de navegación, haga clic en Servicios > Instancias de servicio.

  8. Pulse Añadir servicio y seleccione Datastage.

  9. Pulse Crear. Verá el servicio suministrado en la página Instancias de servicio.

Para obtener más información o ver un vídeo, consulte Creación de un proyecto.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra los servicios suministrados.

La imagen siguiente muestra los servicios suministrados.




Tarea 2: Añadir el conjunto de datos al proyecto

El conjunto de datos utilizado en esta guía de aprendizaje está disponible en el concentrador de recursos. Siga estos pasos para buscar el conjunto de datos en el concentrador de recursos y añadirlo al proyecto:

  1. Acceda al conjunto de datos Clientes en el hub Recursos.

  2. Pulse Añadir al proyecto.

  3. Seleccione el proyecto en la lista y pulse Añadir.

  4. Después de añadir el conjunto de datos, pulse Ver proyecto.

Para obtener más información sobre cómo añadir activos de datos desde el concentrador de recursos al proyecto, consulte Carga y acceso a datos en un cuaderno.

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra el separador Activos en el proyecto.

La imagen siguiente muestra la pestaña Activos en el proyecto.




Tarea 3: Crear un flujo de DataStage

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 00:26.

El flujo de DataStage contendrá cuatro nodos: el activo de datos original, un nodo de filtro, un nodo de clasificación y el activo de datos transformado. Siga estos pasos para crear el flujo de DataStage :

  1. Hacer clic Nuevo activo > Transformar e integrar datos .

  2. Proporcione un nombre y una descripción y luego pulse Crear.

  3. Pulse Conectores y luego arrastre y suelte el nodo Navegador de activos en el lienzo.

  4. Seleccione Activo de datos > customers.csv y pulse Añadir.

  5. En la Paleta de nodos, expanda la sección Etapas y arrastre el nodo Filtrar al lienzo.

  6. Para enlazar los nodos, pulse la flecha azul en el nodo Customers.csv y arrástrelo al nodo Filtrar .

  7. En la sección Etapas, arrastre el nodo Clasificar al lienzo.

  8. Conecte el nodo Filtro al nodo Clasificar.

  9. Expanda la sección Conectores y, a continuación, arrastre el nodo Navegador de activos en el lienzo.

  10. Seleccione Activo de datos > customers.csv y pulse Añadir. Puede cambiar el nombre de archivo más adelante para no sobrescribir el archivo customer.csv.

  11. Conecte el nodo Ordenar a este último nodo Customers.csv .

Icono de punto de comprobación ' Comprueba tu progreso

La siguiente imagen muestra el flujo inicial.

La siguiente imagen muestra el flujo inicial.




Tarea 4: Editar los nodos

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 03:27.

Siga estos pasos para editar las propiedades de cada nodo del lienzo:

Nodo 1: Editar el primer nodo de navegador de activos

  1. Efectúe una doble pulsación en el primer nodo Customer.csv .

  2. En el panel Propiedades de la derecha, cambie el nombre del nodo por CustomerTable para cambiar el nombre del nodo de activo.

  3. Pulse la pestaña Salida.

  4. Expanda la sección Columnas y pulse Editar.

  5. Para la columna YTD_SALES, para el Tipo de datos y seleccione DECIMAL para cambiar el tipo de datos de la columna YTD_SALES.

  6. Pulse Aplicar y volver para volver al panel Propiedades.

  7. Pulse Guardar para guardar los cambios en el nodo Tabla de clientes.

Nodo 2: Editar el nodo Filtrar

  1. Efectúe una doble pulsación en el nodo Filtro.

  2. En el panel Propiedades, cambie el nombre del texto Filter_1 por FilterYTDSales para cambiar el nombre del nodo de filtro.

  3. Expanda la sección Propiedades. En Predicados, pulse Editar.

    1. En la columna Cláusula where , escriba YTD_SALES > 1000.

    2. Pulse Aplicar y volver.

  4. Pulse la pestaña Salida.

  5. Expanda la sección Columnas y pulse Editar.

    1. Seleccione todas las columnas y anule la selección de las siguientes columnas enumeradas a continuación que se mantendrán para este tutorial.

      • CUST_ID
      • CUSTNAME
      • COUNTRY_CODE
      • EMAIL_ADDRESS
      • PHONE_NUMBER
      • YTD_SALES
      • SALESREP_ID
    2. Haga clic en el icono Eliminar filas seleccionadas ' Suprimir filas seleccionadas ' para eliminar el resto de columnas seleccionadas.

    3. Para la columna CUSTNAME, cambie el nombre por CUSTOMERNAME. Este cambio se propagará a los nodos que siguen al nodo Filtro.

    4. Pulse Aplicar y volver para volver al panel Propiedades.

  6. Pulse Guardar para guardar los cambios en el nodo Filtro.

Nodo 3: Editar el nodo Ordenar

  1. Efectúe una doble pulsación en el nodo Clasificar.

  2. En el panel Propiedades, cambie el nombre del texto Sort_1 por SortYTDSales para cambiar el nombre del nodo de clasificación.

  3. Expanda la sección Propiedades.

  4. En Claves de clasificación, haga clic en Añadir clave.

    1. Pulse Añadir clave.

    2. En el menú desplegable Clave, seleccione YTD_SALES.

    3. Para Orden de clasificación, seleccione Descendente.

    4. Pulse Aplicar para volver a la lista de claves de clasificación.

    5. Pulse Aplicar y volver para volver al panel Propiedades.

  5. Pulse la pestaña Entrada y expanda la sección Columnas para verificar que el cambio de nombre de la columna CUSTOMERNAME se ha propagado desde el nodo Filtrar.

  6. Pulse la pestaña Salida y expanda la sección Columnas para verificar que el cambio de nombre de la columna CUSTOMERNAME se ha propagado desde el nodo Filtrar.

  7. Pulse Guardar para guardar los cambios en el nodo Clasificar.

Nodo 4: Editar el último nodo de navegador de activos

  1. Efectúe una doble pulsación en el último nodo Customers.csv .

  2. En el panel Propiedades , cambie el nombre del nodo por CustomerFilteredTable para cambiar el nombre del nodo de activo.

  3. Expanda la sección Propiedades y seleccione el recuadro de selección Crear activo de datos.

  4. En el campo Nombre del activo de datos, escriba " Customers filtered.

  5. Pulse la pestaña Entrada y expanda la sección Columnas para verificar que el cambio de nombre de la columna CUSTOMERNAME se ha propagado desde el nodo Filtrar.

  6. Pulse Guardar para guardar los cambios en el nodo Tabla de clientes filtrados .

Icono de punto de comprobación ' Comprueba tu progreso

La siguiente imagen muestra el flujo final.

La siguiente imagen muestra el flujo final.




Tarea 5: Ejecutar el flujo de DataStage y ver el activo

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 06:36.

Ahora está preparado para ejecutar el flujo. Siga estos pasos para ejecutar el flujo y ver el activo transformado en el proyecto:

  1. Pulse Guardar.

  2. Pulse Compilar.

  3. Pulse Ejecutar.

  4. (Opcional) Pulse el enlace Registro para ver los detalles de ejecución.

  5. Efectúe una doble pulsación en el último nodo Tabla de clientes filtrados .

  6. Expanda la sección Propiedades.

  7. Desplácese hacia abajo y pulse Vista preliminar de los datos. Puede ver que los datos se han filtrado y clasificado correctamente.

    1. Pulse el panel Gráfico .

    2. Para las Columnas a visualizar, seleccione YTD_SALES.

    3. Para el Tipo de gráfico, pulse Gráfico Q-Q.

    4. Pulse Cerrar.

  8. Puesto que ha configurado el flujo para crear un activo de datos en el proyecto, pulse el nombre del proyecto en la pista de navegación para volver al proyecto.

  9. En la pestaña Activos , abra el activo Clientes filtrados .

Icono de punto de comprobación ' Comprueba tu progreso

La imagen siguiente muestra el activo de datos filtrado de clientes.

La imagen siguiente muestra el activo de datos filtrados de los clientes.



Próximos pasos

Ahora los datos están listos para ser utilizados. Por ejemplo, usted u otros usuarios pueden realizar cualquiera de estas tareas:

Recursos adicionales

Tema principal: Guías de aprendizaje de inicio rápido

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información