Puede ahorrar tiempo de preparación de datos transformando rápidamente grandes cantidades de datos sin formato en información consumible y de alta calidad que está preparada para la analítica. Lea acerca del editor de la herramienta Data Refinery y vea un vídeo y siga una guía de aprendizaje que sea adecuada para principiantes y que no requiera codificación.
- Servicio necesario
- watsonx.ai Studio o IBM Knowledge Catalog
El flujo de trabajo básico incluye estas tareas:
- Cree un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
- Añada sus datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
- Abrir los datos en Data Refinery.
- Realice los pasos utilizando operaciones para refinar los datos.
- Cree y ejecute un trabajo para transformar los datos.
Vídeos sobre Data Refinery
Data Refinery sirve para limpiar y dar forma a datos tabulares con un editor de flujo gráfico. También puede utilizar plantillas interactivas para codificar operaciones, funciones y operadores lógicos. Cuando limpia datos, arregla o elimina datos incorrectos, incompletos, con un formato incorrecto o duplicados. Cuando da forma a los datos, personaliza dichos datos al filtrar, ordenar, combinar o eliminar columnas y realizar operaciones.
Se crea un Flujo de Data Refinery como un conjunto de operaciones ordenadas en los datos. Data Refinery incluye una interfaz gráfica para perfilar y validar sus datos y posee más de 20 gráficos personalizables que le proporcionan perspectivas y conocimientos sobre sus datos. Al guardar el conjunto de datos refinado, habitualmente se carga en una ubicación distinta de la que se lee. De este modo, los datos de origen permanecen inalterados por el proceso de refinamiento.
Vea un vídeo sobre cómo refinar datos
Vea este vídeo para ver cómo refinar los datos.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Transcripción de vídeo Hora Transcripción 00:00 Este vídeo muestra cómo dar forma a los datos en bruto mediante Data Refinery. 00:05 Para empezar a refinar datos de un proyecto, vea el activo de datos y ábralo en Data Refinery. 00:14 El panel "Información" contiene el nombre para el flujo de datos y para la salida del flujo de datos, una vez que haya terminado de refinar los datos. 00:23 La pestaña "Datos" le muestra un conjunto de ejemplo de las filas y columnas del conjunto de datos. 00:29 Para mejorar el rendimiento, no verá todas las filas del shaper. 00:33 Pero tenga la seguridad de que cuando haya terminado de refinar los datos, el flujo de datos se ejecutará en el conjunto de datos completo. 00:41 La pestaña "Perfil" le muestra estadísticas de frecuencia y resumen para cada una de sus columnas. 00:49 La pestaña "Visualizaciones" proporciona visualizaciones de datos para las columnas en las que está interesado. 00:57 Los gráficos sugeridos tienen un punto azul junto a sus iconos. 01:03 Utilice las diferentes perspectivas disponibles en los gráficos para identificar patrones, conexiones y relaciones dentro de los datos. 01:12 Ahora hablaremos sobre datos. 01:17 Comience con una operación simple, como ordenar en la columna especificada-en este caso, la columna "Año". 01:27 Supongamos que desea centrarse en los retrasos sólo para una aerolínea específica para que pueda filtrar los datos para mostrar sólo las filas en las que la compañía única es "United Airlines". 01:47 Sería útil ver el retraso total. 01:50 Puede hacerlo creando una nueva columna para combinar los retrasos de llegada y salida. 01:56 Observe que el tipo de columna se infiere como entero. 02:00 Seleccione la columna de retraso de salida y utilice la operación "Calcular". 02:09 En este caso, añadirás la columna de retraso de llegada a la columna seleccionada y crearás una nueva columna, llamada "TotalDelay". 02:23 Puede colocar la nueva columna al final de la lista de columnas o junto a la columna original. 02:31 Al aplicar la operación, la nueva columna se muestra junto a la columna de retardo de salida. 02:38 Si cometes un error, o simplemente decides hacer un cambio, solo tienes que acceder al panel "Pasos" y eliminar ese paso. 02:46 Esto deshará esa operación en particular. 02:50 También puede utilizar los botones rehacer y deshacer. 02:56 A continuación, te gustaría centrarte en la columna "TotalDelay" para poder utilizar la operación "select" y mover la columna al principio. 03:09 Este comando ordena la columna "TotalDelay" " como la primera de la lista, y todo lo demás viene después. 03:21 A continuación, utilice la operación "group_by" para dividir los datos en grupos por año, mes y día. 03:32 Así, cuando seleccione la columna ' "TotalDelay" ', verá las columnas "Año", "Mes", ' "DayofMonth", ' y ' "TotalDelay". 03:44 Por último, desea hallar la media de la columna "TotalDelay". 03:48 Al expandir el menú "Operaciones", en la sección "Organizar", encontrará la operación "Agregar", que incluye la función "Media". 04:08 Ahora tienes una nueva columna, llamada "AverageDelay", que representa la media del retraso total. 04:17 Ahora para ejecutar el flujo de datos y guardar y crear el trabajo. 04:24 Proporcione un nombre para el trabajo y continúe en la siguiente pantalla. 04:28 El paso "Configurar" le permite revisar cuál será la entrada y salida de la ejecución del trabajo. 04:36 Y seleccione el entorno utilizado para ejecutar el trabajo. 04:41 La planificación de un trabajo es opcional, pero puede establecer una fecha y repetir el trabajo, si lo desea. 04:51 Y puede elegir recibir notificaciones para este trabajo. 04:56 Todo parece correcto, así que crea y ejecuta el trabajo. 05:00 Esto podría tardar varios minutos, porque recuerde que el flujo de datos se ejecutará sobre el conjunto de datos completo. 05:06 Mientras tanto, puede ver el estado. 05:12 Cuando la ejecución está en competencia, puede volver a la pestaña "Activos" del proyecto. 05:20 Y abra el flujo de Data Refinery para refinar más los datos. 05:28 Por ejemplo, puede ordenar la columna "AverageDelay" " en orden descendente. 05:36 Ahora, edite los valores de flujo. 05:39 En el panel "General", puede cambiar el nombre de flujo de Data Refinery . 05:46 En el panel "Conjuntos de datos de origen", puede editar el ejemplo o el formato del conjunto de datos de origen o sustituir el origen de datos. 05:56 Y en el panel "Conjunto de datos de destino", puede especificar una ubicación alternativa, como un origen de datos externo. 06:06 También puede editar las propiedades para el destino, como la modalidad de escritura, el formato de archivo y cambiar el nombre de activo de conjunto de datos. 06:21 Ahora vuelva a ejecutar el flujo de datos; pero esta vez, guarde y vea los trabajos. 06:28 Seleccione el trabajo que desea ver en la lista y ejecute el trabajo. 06:41 Cuando finalice la ejecución, vuelva al proyecto. 06:46 Y en la pestaña "Activos", verás los tres archivos: 06:51 El original. 06:54 El primer conjunto de datos refinados, mostrando el "AverageDelay" " sin clasificar. 07:02 Y el segundo conjunto de datos, que muestra la columna "AverageDelay" " ordenada de forma descendente. 07:11 Y de nuevo en la pestaña "Activos", está el flujo de Data Refinery . 07:19 Busque más vídeos en la documentación de Cloud Pak for Data as a Service.
Probar un tutorial para refinar los datos
En esta guía de aprendizaje, realizará estas tareas:
- Tarea 1: Abrir un proyecto.
- Tarea 2: Abrir el conjunto de datos en Data Refinery.
- Tarea 3: Revisar los datos con Perfil y Visualizaciones.
- Tarea 4: Refinar los datos.
- Tarea 5: Ejecutar un trabajo para el flujo de Data Refinery .
- Tarea 6: Crear otro activo de datos desde el flujo Data Refinery .
- Tarea 7: Ver los activos de datos y el flujo de Data Refinery en el proyecto.
Le llevará aproximadamente 30 minutos el completar esta guía de aprendizaje.
Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.
Utilizar la imagen en imagen de vídeo
La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:
Obtener ayuda en la comunidad
Si necesita ayuda con este tutorial, puede hacer una pregunta o encontrar una respuesta en el foro de debate de la Comunidad deCloud Pak for Data.
Configurar las ventanas del navegador
Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.
Tarea 1: Abrir un proyecto
Necesita un proyecto para almacenar los datos y el flujo de Data Refinery. Puede utilizar un proyecto existente o crear un proyecto.
En el menú de navegación ' , seleccione Proyectos > Ver todos los proyectos
Abre un proyecto existente. Si desea utilizar un proyecto nuevo:
Pulse Nuevo proyecto.
Seleccione Crear un proyecto vacío.
Especifique un nombre y una descripción opcional para el proyecto.
Elija una instancia de servicio de almacenamiento de objetos existente o cree una nueva.
Pulse Crear.
' Comprueba tu progreso
La imagen siguiente muestra un proyecto nuevo vacío.
Para obtener más información o ver un vídeo, consulte Creación de un proyecto.
Tarea 2: Abrir el conjunto de datos en Data Refinery
Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 00:05.
Siga estos pasos para añadir un activo de datos al proyecto y crear un flujo de Data Refinery . El conjunto de datos que utilizará en esta guía de aprendizaje está disponible en el concentrador de recursos.
Acceda a los datos de la compañía aérea en el centro de recursos.
Pulse Añadir al proyecto.
Seleccione el proyecto en la lista y pulse Añadir.
Después de añadir el conjunto de datos, pulse Ver proyecto.
Para obtener más información sobre cómo añadir un activo de datos desde el concentrador de recursos a un proyecto, consulte Carga y acceso a datos en un cuaderno.
En la pestaña Activos , pulse el activo de datos airline-data.csv para obtener una vista previa de su contenido.
Pulse Preparar datos para abrir un ejemplo del archivo en Data Refineryy espere hasta que Data Refinery lea y procese un ejemplo de los datos.
Cierre los paneles Información y Pasos .
' Comprueba tu progreso
La imagen siguiente muestra el activo de datos de línea aérea abierto en Data Refinery.
Tarea 3: Revisar los datos con Perfil y Visualizaciones
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 00:47.
El contenido de un activo se perfila automáticamente y se clasifica en función de los valores de esas columnas. Siga estos pasos para utilizar las pestañas Perfil y Visualizaciones para explorar los datos.
Pulse el separador Perfil para revisar la distribución de frecuencias de los datos para que pueda encontrar los valores atípicos.
Desplácese por las columnas para ver las estadísticas de cada columna. Las estadísticas muestran el rango intercuartil, mínimo, máximo, mediana y desviación estándar en cada columna.
Pase el cursor por encima de una barra para ver detalles adicionales.
La siguiente imagen muestra la pestaña Perfil:
Pulse la pestaña Visualizaciones.
Seleccione la columna UniqueCarrier para visualizarla. Los gráficos sugeridos tienen un punto azul junto a sus iconos.
Pulse el gráfico Circular . Utilice las diferentes perspectivas disponibles en los gráficos para identificar patrones, conexiones y relaciones dentro de los datos.
' Comprueba tu progreso
La imagen siguiente muestra la pestaña Visualizaciones. Ahora está preparado para refinar los datos.
Tarea 4: Refinar los datos
Operaciones de Data Refinery
Data Refinery utiliza dos tipos de operaciones para refinar datos, Operaciones de GUI y operaciones de codificación. Utilizará ambos tipos de operaciones en esta guía de aprendizaje.
Las operaciones de GUI pueden constar de varios pasos. Seleccione una operación de Nuevo paso. Un subconjunto de las operaciones GUI también está disponible en el menú Desbordamiento de cada columna ().
Cuando abre un archivo en Data Refinery, la operación Convertir tipo de columna se aplica automáticamente como primer paso para convertir cualquier tipo de datos que no sea de serie a tipos de datos inferidos (por ejemplo, a Integer, Date, Boolean, etc.). Este paso se puede deshacer o editar.
Las operaciones de codificación son plantillas interactivas para operaciones, funciones y operadores lógicos de codificación. La mayoría de las operaciones tienen ayuda interactiva. Pulse en el nombre de la operación en el recuadro de texto de la línea de mandatos para ver las operaciones de codificación y sus opciones de sintaxis.
' Para previsualizar esta tarea, vea el vídeo que comienza en 01:16.
El refinamiento de datos es una serie de pasos para crear un Flujo de refinería de datos. A medida que avance por esta tarea, consulte el panel Pasos para seguir su progreso. Puede seleccionar un paso para suprimirlo o editarlo. Si te equivocas, también puedes hacer clic en el icono Deshacer ' . Siga estos pasos para refinar los datos:
Vuelva a la pestaña Datos.
Seleccione la columna Año. Haga clic en el menú Desbordamiento () y elija Orden descendente.
Pulse Pasos para ver el nuevo paso en el panel Pasos .
Vamos a concentrarnos en los retrasos por compañía aérea específica. Esta guía de aprendizaje utiliza United Airlines (UA), pero puede elegir cualquier compañía aérea.
Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Filtro.
Elija la columna UniqueCarrier.
Para Operador, seleccione Es igual a.
Para Valor, escriba la serie de la línea aérea para la que desea ver información de retrasos. Por ejemplo, '
UA
.
Haga clic en Aplicar. Desplácese a la columna UniqueCarrier para ver los resultados.
Cree una nueva columna que añada los tiempos de retraso de llegada y salida juntos.
Seleccione la columna DepDelay .
Observe que la operación Convertir tipo de columna se ha aplicado automáticamente como primer paso para convertir los tipos de datos de Serie en todas las columnas cuyos valores son números para tipos de datos de entero.
Pulse Nuevo paso y seleccione la operación de la GUI Calcular.
Para Operador, seleccione Adición.
Seleccione Columnay, a continuación, elija la columna ArrDelay .
Seleccione Crear nueva columna para los resultados.
For Nuevo nombre de columna, type
TotalDelay
.
Puede colocar la nueva columna al final de la lista de columnas o junto a la columna original. En este caso, seleccione Siguiente a la columna original.
Haga clic en Aplicar. Se añade la nueva columna RetrasoTotal.
Mueva la nueva columna TotalDelay al principio del conjunto de datos:
En el recuadro de texto de la línea de mandatos, elija la operación seleccionar.
Pulse la palabra selecty, a continuación, seleccione select (`
<column>
`, todo ()).Pulse
`<column>`
y seleccione la columna TotalDelay. Cuando haya terminado, el mandato debe tener el aspecto siguiente:select(`TotalDelay`, everything())
Haga clic en Aplicar. La columna TotalDelay es ahora la primera columna.
Reduzca los datos a cuatro columnas: Year, Month, DayofMonth, and TotalDelay. Utilice la operación de codificación group_by para dividir las columnas en grupos de año, mes y día.
En el recuadro de texto de la línea de mandatos, elija la operación group_by.
Pulse
<column>
y seleccione la columna Year.Antes del paréntesis de cierre, escriba:
,Month,DayofMonth
. Cuando haya terminado, el mandato debe tener el aspecto siguiente:group_by(`Year`,Month,DayofMonth)
Haga clic en Aplicar.
Utilice la operación de codificación seleccionar para la columna TotalDelay. En el recuadro de texto de la línea de mandatos, seleccione la operación seleccionar.
Pulse<column>
y elija la columna TotalDelay. El mandato debería ser parecido a:select(`TotalDelay`)
Haga clic en Aplicar. Los datos configurados ahora constan de las columnas Year, Month, DayofMonth, and TotalDelay.
La siguiente imagen de pantalla muestra las cuatro primeras filas de los datos.
Mostrar la media de los valores de la columna TotalDelay y crear una nueva columna AverageDelay :
Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Agregado.
En Columna, seleccione TotalDelay.
Para Operador, seleccione Media.
For Nombre de la columna agregada, type
AverageDelay
.
Haga clic en Aplicar.
La nueva columna AverageDelay es el promedio de todos los tiempos de retardo.
' Comprueba tu progreso
La imagen siguiente muestra las primeras cuatro filas de los datos.
Tarea 5: Ejecutar un trabajo para el flujo de Data Refinery
Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 04:16.
Cuando ejecuta un trabajo para el flujo de Data Refinery, se ejecutan los pasos en todo el conjunto de datos. Seleccione el tiempo de ejecución y añada una planificación puntual o cíclica. La salida del flujo de Data Refinery se añade a los activos de datos de proyecto. Siga estos pasos para ejecutar un trabajo para crear el conjunto de datos refinado.
En la barra de herramientas Data Refinery, haga clic en el icono Trabajos y seleccione Guardar y crear un trabajo.
Escriba un nombre y una descripción para el trabajo y pulse Siguiente.
Seleccione un entorno de ejecución y pulse Siguiente.
(Opcional) Pulse el botón de conmutación para planificar una ejecución. Especifique la fecha, la hora y si desea que el trabajo se repita y pulse Siguiente.
(Opcional) Active las notificaciones para este trabajo, y pulse Siguiente.
Revise los detalles y haga clic en Crear y ejecutar para ejecutar el trabajo inmediatamente.
Cuando se cree el trabajo, pulse el enlace detalles del trabajo en la notificación para ver el trabajo en el proyecto. Como alternativa, puede ir hasta la pestaña Trabajos del proyecto y pulsar el nombre del trabajo para abrirlo.
Cuando el Estado del trabajo es Completado, utilice la pista de navegación del proyecto para volver al separador Activos del proyecto.
Pulse la sección Datos > Activos de datos para ver la salida del flujo de Data Refinery , airline-data_shaped.csv.
Pulse la sección Flujos > Flujos de Data Refinery para ver el flujo de Data Refinery , airline-data.csv_flow.
' Comprueba tu progreso
La imagen siguiente muestra la pestaña Activos con el flujo de Data Refinery y el activo con forma.
Tarea 6: Crear otro activo de datos desde el flujo de Data Refinery
' Para previsualizar esta tarea, vea el vídeo a partir del minuto 05:26.
Siga estos pasos para refinar más el conjunto de datos editando el flujo Data Refinery :
Pulse airline-data.csv_flow para abrir el flujo en Data Refinery.
Ordene la columna AverageDelay en orden descendente.
Seleccione la columna AverageDelay .
Haga clic en el menú Desbordamiento de la columna () y, a continuación, seleccione Orden descendente.
Haga clic en el icono de configuración de Flujo ' .
Pulse el panel Conjunto de datos de destino .
Pulse Editar propiedades.
En el cuadro de diálogo Propiedades de formato de destino, cambie el nombre del activo de datos a '
airline-data_sorted_shaped.csv
.
Pulse Guardar para volver a los valores de flujo.
Pulse Aplicar para guardar los valores.
En la barra de herramientas Data Refinery, haga clic en el icono Trabajos y seleccione Guardar y ver trabajos.
Seleccione el trabajo para los datos de la compañía aérea y pulse Ver.
En la barra de herramientas de la ventana Trabajo, haga clic en el icono Ejecutar trabajo.
' Comprueba tu progreso
La imagen siguiente muestra los detalles del trabajo completado.
Tarea 7: Ver los activos de datos y el flujo de Data Refinery en el proyecto
' Para previsualizar esta tarea, vea el vídeo que comienza en 06:40.
Ahora siga estos pasos para ver los tres activos de datos, el original, el primer conjunto de datos refinado y el segundo conjunto de datos refinado:
Cuando se haya completado el trabajo, vaya a la página del proyecto.
Pulse el separador Activos.
En la sección Activos de datos, verá el conjunto de datos original que ha cargado y la salida de los dos flujos de Data Refinery.
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Pulse el activo de datos línea aérea-data_csv_con forma para ver el retardo medio sin ordenar. Vuelva a la pestaña Activos .
Pulse el activo de datos airline-data_sorted_shaped.csv para ver el retraso promedio clasificado en orden descendente. Vuelva a la pestaña Activos .
Pulse la sección Flujos > Flujos de Data Refinery muestra el flujo de Data Refinery :
airline-data.csv_flow
.
' Comprueba tu progreso
La imagen siguiente muestra la pestaña Activos con todos los activos visualizados.
Próximos pasos
Ahora los datos están listos para ser utilizados. Por ejemplo, usted u otros usuarios pueden realizar cualquiera de estas tareas:
Recursos adicionales
Ver más vídeos sobre Data Refinery.
Encuentre conjuntos de datos de muestra para adquirir experiencia práctica en el refinamiento de datos en el centro de recursos.
Pruebe este tutorial adicional para Data Refinery: Recopila, limpia y mejora tus datos ' .
Tema principal: Guías de aprendizaje de inicio rápido