Puede ahorrar tiempo de preparación de datos transformando rápidamente grandes cantidades de datos sin formato en información consumible y de alta calidad que está preparada para la analítica. Lea acerca del editor de la herramienta Data Refinery y vea un vídeo y siga una guía de aprendizaje que sea adecuada para principiantes y que no requiera codificación.
El flujo de trabajo básico incluye estas tareas:
- Abra el proyecto de recinto de seguridad. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
- Añada datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
- Abrir los datos en Data Refinery.
- Realice los pasos utilizando operaciones para refinar los datos.
- Cree y ejecute un trabajo para transformar los datos.
Vídeos sobre Data Refinery
Data Refinery sirve para limpiar y dar forma a datos tabulares con un editor de flujo gráfico. También puede utilizar plantillas interactivas para codificar operaciones, funciones y operadores lógicos. Cuando limpia datos, arregla o elimina datos incorrectos, incompletos, con un formato incorrecto o duplicados. Cuando da forma a los datos, personaliza dichos datos al filtrar, ordenar, combinar o eliminar columnas y realizar operaciones.
Se crea un Flujo de Data Refinery como un conjunto de operaciones ordenadas en los datos. Data Refinery incluye una interfaz gráfica para perfilar y validar sus datos y posee más de 20 gráficos personalizables que le proporcionan perspectivas y conocimientos sobre sus datos. Al guardar el conjunto de datos refinado, habitualmente se carga en una ubicación distinta de la que se lee. De este modo, los datos de origen permanecen inalterados por el proceso de refinamiento.
Vea un vídeo sobre cómo refinar datos
Vea este vídeo para ver cómo refinar los datos.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Probar un tutorial para refinar los datos
En esta guía de aprendizaje, realizará estas tareas:
- Tarea 1: Abrir un proyecto.
- Tarea 2: Abrir el conjunto de datos en Data Refinery.
- Tarea 3: Revisar los datos con Perfil y Visualizaciones.
- Tarea 4: Refinar los datos.
- Tarea 5: Ejecutar un trabajo para el flujo de Data Refinery .
- Tarea 6: Crear otro activo de datos desde el flujo Data Refinery .
- Tarea 7: Ver los activos de datos y el flujo de Data Refinery en el proyecto.
Le llevará aproximadamente 30 minutos el completar esta guía de aprendizaje.
Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.
Utilizar la imagen en imagen de vídeo
La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:
Obtener ayuda en la comunidad
Si necesitas ayuda con este tutorial, puedes hacer una pregunta o encontrar una respuesta en el foro de debate de la Comunidadwatsonx.
Configurar las ventanas del navegador
Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.
Tarea 1: Abrir un proyecto
Necesita un proyecto para almacenar los datos y el flujo de Data Refinery. Puede utilizar el proyecto de recinto de seguridad o crear un proyecto.
En el menú de navegación ' , seleccione Proyectos > Ver todos los proyectos
Abra el proyecto de recinto de seguridad. Si desea utilizar un proyecto nuevo:
Pulse Nuevo proyecto.
Seleccione Crear un proyecto vacío.
Especifique un nombre y una descripción opcional para el proyecto.
Elija una instancia de servicio de almacenamiento de objetos existente o cree una nueva.
Pulse Crear.
' Comprueba tu progreso
La imagen siguiente muestra un proyecto nuevo vacío.
Para obtener más información o ver un vídeo, consulte Creación de un proyecto.
Tarea 2: Abrir el conjunto de datos en Data Refinery
Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 00:05.
Siga estos pasos para añadir un activo de datos al proyecto y crear un flujo de Data Refinery . El conjunto de datos que utilizará en esta guía de aprendizaje está disponible en el concentrador de recursos.
Acceda a los datos de la compañía aérea en el centro de recursos.
Pulse Añadir al proyecto.
Seleccione el proyecto en la lista y pulse Añadir.
Después de añadir el conjunto de datos, pulse Ver proyecto.
Para obtener más información sobre cómo añadir un activo de datos desde el concentrador de recursos a un proyecto, consulte Carga y acceso a datos en un cuaderno.
En la pestaña Activos , pulse el activo de datos airline-data.csv para obtener una vista previa de su contenido.
Pulse Preparar datos para abrir un ejemplo del archivo en Data Refineryy espere hasta que Data Refinery lea y procese un ejemplo de los datos.
Cierre los paneles Información y Pasos .
' Comprueba tu progreso
La imagen siguiente muestra el activo de datos de línea aérea abierto en Data Refinery.
Tarea 3: Revisar los datos con Perfil y Visualizaciones
Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 00:47.
El contenido de un activo se perfila automáticamente y se clasifica en función de los valores de esas columnas. Siga estos pasos para utilizar las pestañas Perfil y Visualizaciones para explorar los datos.
Pulse el separador Perfil para revisar la distribución de frecuencias de los datos para que pueda encontrar los valores atípicos.
Desplácese por las columnas para ver las estadísticas de cada columna. Las estadísticas muestran el rango intercuartil, mínimo, máximo, mediana y desviación estándar en cada columna.
Pase el cursor por encima de una barra para ver detalles adicionales.
La siguiente imagen muestra la pestaña Perfil:
Pulse la pestaña Visualizaciones.
Seleccione la columna UniqueCarrier para visualizarla. Los gráficos sugeridos tienen un punto azul junto a sus iconos.
Pulse el gráfico Circular . Utilice las diferentes perspectivas disponibles en los gráficos para identificar patrones, conexiones y relaciones dentro de los datos.
' Comprueba tu progreso
La imagen siguiente muestra la pestaña Visualizaciones. Ahora está preparado para refinar los datos.
Tarea 4: Refinar los datos
Operaciones de Data Refinery
Data Refinery utiliza dos tipos de operaciones para refinar datos, Operaciones de GUI y operaciones de codificación. Utilizará ambos tipos de operaciones en esta guía de aprendizaje.
Las operaciones de GUI pueden constar de varios pasos. Seleccione una operación de Nuevo paso. Un subconjunto de las operaciones GUI también está disponible en el menú Desbordamiento de cada columna ().
Cuando abre un archivo en Data Refinery, la operación Convertir tipo de columna se aplica automáticamente como primer paso para convertir cualquier tipo de datos que no sea de serie a tipos de datos inferidos (por ejemplo, a Integer, Date, Boolean, etc.). Este paso se puede deshacer o editar.
Las operaciones de codificación son plantillas interactivas para operaciones, funciones y operadores lógicos de codificación. La mayoría de las operaciones tienen ayuda interactiva. Pulse en el nombre de la operación en el recuadro de texto de la línea de mandatos para ver las operaciones de codificación y sus opciones de sintaxis.
' Para previsualizar esta tarea, vea el vídeo que comienza en 01:16.
El refinamiento de datos es una serie de pasos para crear un Flujo de refinería de datos. A medida que avance por esta tarea, consulte el panel Pasos para seguir su progreso. Puede seleccionar un paso para suprimirlo o editarlo. Si te equivocas, también puedes hacer clic en el icono Deshacer ' . Siga estos pasos para refinar los datos:
Vuelva a la pestaña Datos.
Seleccione la columna Año. Haga clic en el menú Desbordamiento () y elija Orden descendente.
Pulse Pasos para ver el nuevo paso en el panel Pasos .
Vamos a concentrarnos en los retrasos por compañía aérea específica. Esta guía de aprendizaje utiliza United Airlines (UA), pero puede elegir cualquier compañía aérea.
Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Filtro.
Elija la columna UniqueCarrier.
Para Operador, seleccione Es igual a.
Para Valor, escriba la serie de la línea aérea para la que desea ver información de retrasos. Por ejemplo, '
UA
.
Haga clic en Aplicar. Desplácese a la columna UniqueCarrier para ver los resultados.
Cree una nueva columna que añada los tiempos de retraso de llegada y salida juntos.
Seleccione la columna DepDelay .
Observe que la operación Convertir tipo de columna se ha aplicado automáticamente como primer paso para convertir los tipos de datos de Serie en todas las columnas cuyos valores son números para tipos de datos de entero.
Pulse Nuevo paso y seleccione la operación de la GUI Calcular.
Para Operador, seleccione Adición.
Seleccione Columnay, a continuación, elija la columna ArrDelay .
Seleccione Crear nueva columna para los resultados.
For Nuevo nombre de columna, type
TotalDelay
.
Puede colocar la nueva columna al final de la lista de columnas o junto a la columna original. En este caso, seleccione Siguiente a la columna original.
Haga clic en Aplicar. Se añade la nueva columna RetrasoTotal.
Mueva la nueva columna TotalDelay al principio del conjunto de datos:
En el recuadro de texto de la línea de mandatos, elija la operación seleccionar.
Pulse la palabra selecty, a continuación, seleccione select (`
<column>
`, todo ()).Pulse
`<column>`
y seleccione la columna TotalDelay. Cuando haya terminado, el mandato debe tener el aspecto siguiente:select(`TotalDelay`, everything())
Haga clic en Aplicar. La columna TotalDelay es ahora la primera columna.
Reduzca los datos a cuatro columnas: Year, Month, DayofMonth, and TotalDelay. Utilice la operación de codificación group_by para dividir las columnas en grupos de año, mes y día.
En el recuadro de texto de la línea de mandatos, elija la operación group_by.
Pulse
<column>
y seleccione la columna Year.Antes del paréntesis de cierre, escriba:
,Month,DayofMonth
. Cuando haya terminado, el mandato debe tener el aspecto siguiente:group_by(`Year`,Month,DayofMonth)
Haga clic en Aplicar.
Utilice la operación de codificación seleccionar para la columna TotalDelay. En el recuadro de texto de la línea de mandatos, seleccione la operación seleccionar.
Pulse<column>
y elija la columna TotalDelay. El mandato debería ser parecido a:select(`TotalDelay`)
Haga clic en Aplicar. Los datos configurados ahora constan de las columnas Year, Month, DayofMonth, and TotalDelay.
La siguiente imagen de pantalla muestra las cuatro primeras filas de los datos.
Mostrar la media de los valores de la columna TotalDelay y crear una nueva columna AverageDelay :
Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Agregado.
En Columna, seleccione TotalDelay.
Para Operador, seleccione Media.
For Nombre de la columna agregada, type
AverageDelay
.
Haga clic en Aplicar.
La nueva columna AverageDelay es el promedio de todos los tiempos de retardo.
' Comprueba tu progreso
La imagen siguiente muestra las primeras cuatro filas de los datos.
Tarea 5: Ejecutar un trabajo para el flujo de Data Refinery
Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 04:16.
Cuando ejecuta un trabajo para el flujo de Data Refinery, se ejecutan los pasos en todo el conjunto de datos. Seleccione el tiempo de ejecución y añada una planificación puntual o cíclica. La salida del flujo de Data Refinery se añade a los activos de datos de proyecto. Siga estos pasos para ejecutar un trabajo para crear el conjunto de datos refinado.
En la barra de herramientas Data Refinery, haga clic en el icono Trabajos y seleccione Guardar y crear un trabajo.
Escriba un nombre y una descripción para el trabajo y pulse Siguiente.
Seleccione un entorno de ejecución y pulse Siguiente.
(Opcional) Pulse el botón de conmutación para planificar una ejecución. Especifique la fecha, la hora y si desea que el trabajo se repita y pulse Siguiente.
(Opcional) Active las notificaciones para este trabajo, y pulse Siguiente.
Revise los detalles y haga clic en Crear y ejecutar para ejecutar el trabajo inmediatamente.
Cuando se cree el trabajo, pulse el enlace detalles del trabajo en la notificación para ver el trabajo en el proyecto. Como alternativa, puede ir hasta la pestaña Trabajos del proyecto y pulsar el nombre del trabajo para abrirlo.
Cuando el Estado del trabajo es Completado, utilice la pista de navegación del proyecto para volver al separador Activos del proyecto.
Pulse la sección Datos > Activos de datos para ver la salida del flujo de Data Refinery , airline-data_shaped.csv.
Pulse la sección Flujos > Flujos de Data Refinery para ver el flujo de Data Refinery , airline-data.csv_flow.
' Comprueba tu progreso
La imagen siguiente muestra la pestaña Activos con el flujo de Data Refinery y el activo con forma.
Tarea 6: Crear otro activo de datos desde el flujo de Data Refinery
' Para previsualizar esta tarea, vea el vídeo a partir del minuto 05:26.
Siga estos pasos para refinar más el conjunto de datos editando el flujo Data Refinery :
Pulse airline-data.csv_flow para abrir el flujo en Data Refinery.
Ordene la columna AverageDelay en orden descendente.
Seleccione la columna AverageDelay .
Haga clic en el menú Desbordamiento de la columna () y, a continuación, seleccione Orden descendente.
Haga clic en el icono de configuración de Flujo ' .
Pulse el panel Conjunto de datos de destino .
Pulse Editar propiedades.
En el cuadro de diálogo Propiedades de formato de destino, cambie el nombre del activo de datos a '
airline-data_sorted_shaped.csv
.
Pulse Guardar para volver a los valores de flujo.
Pulse Aplicar para guardar los valores.
En la barra de herramientas Data Refinery, haga clic en el icono Trabajos y seleccione Guardar y ver trabajos.
Seleccione el trabajo para los datos de la compañía aérea y pulse Ver.
En la barra de herramientas de la ventana Trabajo, haga clic en el icono Ejecutar trabajo.
' Comprueba tu progreso
La imagen siguiente muestra los detalles del trabajo completado.
Tarea 7: Ver los activos de datos y el flujo de Data Refinery en el proyecto
' Para previsualizar esta tarea, vea el vídeo que comienza en 06:40.
Ahora siga estos pasos para ver los tres activos de datos, el original, el primer conjunto de datos refinado y el segundo conjunto de datos refinado:
Cuando se haya completado el trabajo, vaya a la página del proyecto.
Pulse el separador Activos.
En la sección Activos de datos, verá el conjunto de datos original que ha cargado y la salida de los dos flujos de Data Refinery.
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Pulse el activo de datos línea aérea-data_csv_con forma para ver el retardo medio sin ordenar. Vuelva a la pestaña Activos .
Pulse el activo de datos airline-data_sorted_shaped.csv para ver el retardo medio clasificado en orden descendente. Vuelva a la pestaña Activos .
Pulse la sección Flujos > Flujos de Data Refinery muestra el flujo de Data Refinery :
airline-data.csv_flow
.
' Comprueba tu progreso
La imagen siguiente muestra la pestaña Activos con todos los activos visualizados.
Próximos pasos
Ahora los datos están listos para ser utilizados. Por ejemplo, usted u otros usuarios pueden realizar cualquiera de estas tareas:
Recursos adicionales
Ver más vídeos.
Busque conjuntos de datos de ejemplo, proyectos, modelos, solicitudes y cuadernos en el concentrador de recursos para obtener experiencia práctica:
cuadernos ' que puedes añadir a tu proyecto para empezar a analizar datos y construir modelos.
' Proyectos que puede importar y que contienen cuadernos, conjuntos de datos, avisos y otros recursos.
' Conjuntos de datos que puedes añadir a tu proyecto para refinar, analizar y construir modelos.
' Avisos que puede utilizar en el Laboratorio de avisos para avisar a un foundation model.
Modelos de la Fundación que puede utilizar en el Prompt Lab.
Tema principal: Guías de aprendizaje de inicio rápido