Inicio rápido: Transformar datos
Puede integrar, limpiar y analizar datos de diferentes orígenes de datos utilizando un flujo de DataStage. Lea acerca de la herramienta DataStage y, a continuación, vea un vídeo y siga una guía de aprendizaje adecuada para los usuarios con algún conocimiento de la transformación de datos, pero que no requiere codificación.
- Servicios necesarios
- Watson Studio
- DataStage
El flujo de trabajo básico incluye estas tareas:
- Cree un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
- Añada sus datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
- Cree un flujo de DataStage.
- Realice los pasos utilizando operaciones para refinar los datos.
- Cree y ejecute un trabajo para transformar los datos.
Obtener información sobre DataStage
DataStage es una herramienta de extracción, transformación y carga (ETL) que puede utilizar para transformar e integrar datos en proyectos.
DataStage está diseñado para facilitar su uso y está totalmente integrado en la plataforma. Puede importar los trabajos paralelos existentes de herencia a DataStage mediante el uso de archivos ISX, utilizar el lienzo de DataStage para crear, editar y probar flujos y ejecutar trabajos que se generan a partir de los flujos.
Vea un vídeo sobre la transformación de datos utilizando un flujo de DataStage
Vea este vídeo para ver cómo crear un flujo simple de DataStage.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Pruebe un tutorial para transformar los datos
En esta guía de aprendizaje, realizará estas tareas:
- Tarea 1: Abrir un proyecto.
- Tarea 2: Añadir el conjunto de datos al proyecto.
- Tarea 3: Crear un flujo de DataStage .
- Tarea 4: Editar los nodos.
- Tarea 5: Ejecutar el flujo de DataStage y ver el activo.
Le llevará aproximadamente 20 minutos el completar esta guía de aprendizaje.
Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.
Utilizar la imagen en imagen de vídeo
La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:
Obtener ayuda en la comunidad
Si necesita ayuda con esta guía de aprendizaje, puede formular una pregunta o encontrar una respuesta en el foro de discusión de la comunidad deCloud Pak for Data.
Configurar las ventanas del navegador
Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.
Tarea 1: Abrir un proyecto
Necesita un proyecto para almacenar el conjunto de datos y el flujo de DataStage , y necesita suministrar el servicio DataStage . Siga estos pasos para abrir un proyecto existente o crear un proyecto nuevo y suministrar el servicio:
En el Menú de navegación , seleccione Proyectos > Ver todos los proyectos
Si tiene un proyecto existente, ábralo.
Si no tiene un proyecto existente, pulse Nuevo proyecto.
Seleccione Crear un proyecto vacío.
Especifique un nombre y una descripción opcional para el proyecto.
Pulse Crear.
En el Menú de navegación , pulse Servicios > Instancias de servicio.
Pulse Añadir servicio y seleccione Datastage.
Pulse Crear. Verá el servicio suministrado en la página Instancias de servicio.
Para obtener más información o ver un vídeo, consulte Creación de un proyecto.
Compruebe el progreso
La imagen siguiente muestra los servicios suministrados.
Tarea 2: Añadir el conjunto de datos al proyecto
El conjunto de datos utilizado en esta guía de aprendizaje está disponible en el concentrador de recursos. Siga estos pasos para buscar el conjunto de datos en el concentrador de recursos y añadirlo al proyecto:
Acceda al conjunto de datos Clientes en el concentrador de recursos.
Pulse Añadir al proyecto.
Seleccione el proyecto en la lista y pulse Añadir.
Después de añadir el conjunto de datos, pulse Ver proyecto.
Para obtener más información sobre cómo añadir activos de datos desde el concentrador de recursos al proyecto, consulte Carga y acceso a datos en un cuaderno.
Compruebe el progreso
La imagen siguiente muestra el separador Activos en el proyecto.
Tarea 3: Crear un flujo de DataStage
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 00:26.
El flujo de DataStage contendrá cuatro nodos: el activo de datos original, un nodo de filtro, un nodo de clasificación y el activo de datos transformado. Siga estos pasos para crear el flujo de DataStage :
Hacer clic Nuevo activo > Transformar e integrar datos .
Proporcione un nombre y una descripción y luego pulse Crear.
Pulse Conectores y luego arrastre y suelte el nodo Navegador de activos en el lienzo.
Seleccione Activo de datos > customers.csv y pulse Añadir.
En la Paleta de nodos, expanda la sección Etapas y arrastre el nodo Filtrar al lienzo.
Para enlazar los nodos, pulse la flecha azul en el nodo Customers.csv y arrástrelo al nodo Filtrar .
En la sección Etapas, arrastre el nodo Clasificar al lienzo.
Conecte el nodo Filtro al nodo Clasificar.
Expanda la sección Conectores y, a continuación, arrastre el nodo Navegador de activos en el lienzo.
Seleccione Activo de datos > customers.csv y pulse Añadir. Puede cambiar el nombre de archivo más adelante para no sobrescribir el archivo customer.csv.
Conecte el nodo Ordenar a este último nodo Customers.csv .
Compruebe el progreso
La imagen siguiente muestra el flujo de DataStage inicial.
Tarea 4: Editar los nodos
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 03:27.
Siga estos pasos para editar las propiedades de cada nodo del lienzo:
Nodo 1: Editar el primer nodo de navegador de activos
Efectúe una doble pulsación en el primer nodo Customer.csv .
En el panel Propiedades de la derecha, cambie el nombre del nodo por
Customer Table
para cambiar el nombre del nodo de activo.Pulse la pestaña Salida.
Expanda la sección Columnas y pulse Editar.
Para la columna YTD_SALES, pulse VARCHAR y seleccione DECIMAL para cambiar el tipo de datos de la columna YTD_SALES.
Pulse Aplicar y volver para volver al panel Propiedades.
Pulse Guardar para guardar los cambios en el nodo Tabla de clientes.
Nodo 2: Editar el nodo Filtrar
Efectúe una doble pulsación en el nodo Filtro.
En el panel Propiedades, cambie el nombre del texto
Filter_1
porFilter YTD Sales
para cambiar el nombre del nodo de filtro.Expanda la sección Propiedades. En Predicados, pulse Editar.
Pulse Añadir cláusula where.
En la columna Cláusula where , escriba
YTD_SALES > 1000
.Pulse Aplicar y volver.
Pulse la pestaña Salida.
Expanda la sección Columnas y pulse Editar.
Seleccione toda la columna y deseleccione las siguientes columnas listadas más abajo que se conservarán para esta guía de aprendizaje.
- CUST_ID
- CUSTNAME
- COUNTRY_CODE
- EMAIL_ADDRESS
- PHONE_NUMBER
- YTD_SALES
- SALESREP_ID
Pulse el icono de papelera para suprimir las columnas seleccionadas restantes.
Para la columna CUSTNAME, cambie el nombre por
CUSTOMERNAME
. Este cambio se propagará a los nodos que siguen al nodo Filtro.Pulse Aplicar y volver para volver al panel Propiedades.
Pulse Guardar para guardar los cambios en el nodo Filtro.
Nodo 3: Editar el nodo Ordenar
Efectúe una doble pulsación en el nodo Clasificar.
En el panel Propiedades, cambie el nombre del texto
Sort_1
porSort YTD Sales
para cambiar el nombre del nodo de clasificación.Expanda la sección Propiedades.
En Claves de clasificación, pulse Editar.
Pulse Añadir clave.
En el menú desplegable Clave, seleccione YTD_SALES.
Para Orden de clasificación, seleccione Descendente.
Pulse Aplicar para volver a la lista de claves de clasificación.
Pulse Aplicar y volver para volver al panel Propiedades.
Pulse la pestaña Entrada y expanda la sección Columnas para verificar que el cambio de nombre de la columna CUSTOMERNAME se ha propagado desde el nodo Filtrar.
Pulse la pestaña Salida y expanda la sección Columnas para verificar que el cambio de nombre de la columna CUSTOMERNAME se ha propagado desde el nodo Filtrar.
Pulse Guardar para guardar los cambios en el nodo Clasificar.
Nodo 4: Editar el último nodo de navegador de activos
Efectúe una doble pulsación en el último nodo Customers.csv .
En el panel Propiedades , cambie el nombre del nodo por
Customer filtered table
para cambiar el nombre del nodo de activo.Expanda la sección Propiedades y seleccione el recuadro de selección Crear activo de datos.
Para el campo Nombre del activo de datos, escriba
Customers filtered
y pulse Guardar.Pulse la pestaña Entrada y expanda la sección Columnas para verificar que el cambio de nombre de la columna CUSTOMERNAME se ha propagado desde el nodo Filtrar.
Pulse Guardar para guardar los cambios en el nodo Tabla de clientes filtrados .
Compruebe el progreso
La imagen siguiente muestra el flujo final de DataStage .
Tarea 5: Ejecutar el flujo de DataStage y ver el activo
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 06:36.
Ahora está preparado para ejecutar el flujo. Siga estos pasos para ejecutar el flujo y ver el activo transformado en el proyecto:
Pulse Guardar.
Pulse Compilar.
Pulse Ejecutar.
(Opcional) Pulse el enlace Registro para ver los detalles de ejecución.
Efectúe una doble pulsación en el último nodo Tabla de clientes filtrados .
Expanda la sección Propiedades.
Desplácese hacia abajo y pulse Vista preliminar de los datos. Puede ver que los datos se han filtrado y clasificado correctamente.
Pulse el panel Gráfico .
Para las Columnas a visualizar, seleccione YTD_SALES.
Para el Tipo de gráfico, pulse Gráfico Q-Q.
Pulse Cerrar.
Puesto que ha configurado el flujo para crear un activo de datos en el proyecto, pulse el nombre del proyecto en la pista de navegación para volver al proyecto.
En la pestaña Activos , abra el activo Clientes filtrados .
Compruebe el progreso
La imagen siguiente muestra el activo de datos filtrado de clientes.
Próximos pasos
Ahora los datos están listos para ser utilizados. Por ejemplo, usted u otros usuarios pueden realizar cualquiera de estas tareas:
Pruebe otras guías de aprendizaje:
Añadir el activo de datos a un catálogo para compartirlo con la organización
Recursos adicionales
Ver más vídeos.
Empiece con el proyecto de DataStage de ejemplo: COVID-19 Rastreo con IBM DataStage.
Busque conjuntos de datos de ejemplo para obtener experiencia práctica en la transformación de datos en el concentrador de recursos.
Pruebe esta guía de aprendizaje adicional para obtener más experiencia práctica con los flujos de DataStage : Cómo empezar a utilizar el nuevo servicio IBM DataStage .
Tema principal: Guías de aprendizaje de inicio rápido