Tema traducido automáticamente Puede cambiar a la versión en inglés

Consulte la versión en inglés (original) para obtener la versión más precisa y actualizada de esta documentación. IBM no se responsabiliza de los daños o pérdidas resultantes del uso de contenido traducido automáticamente (máquina).

Inicio rápido: Refinar datos

Última actualización: 28 nov 2024

Puede ahorrar tiempo de preparación de datos transformando rápidamente grandes cantidades de datos sin formato en información consumible y de alta calidad que está preparada para la analítica. Lea acerca del editor de la herramienta Data Refinery y vea un vídeo y siga una guía de aprendizaje que sea adecuada para principiantes y que no requiera codificación.

El flujo de trabajo básico incluye estas tareas:

Abra el proyecto de recinto de seguridad. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
Añada datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
Abrir los datos en Data Refinery.
Realice los pasos utilizando operaciones para refinar los datos.
Cree y ejecute un trabajo para transformar los datos.

Vídeos sobre Data Refinery

Data Refinery sirve para limpiar y dar forma a datos tabulares con un editor de flujo gráfico. También puede utilizar plantillas interactivas para codificar operaciones, funciones y operadores lógicos. Cuando limpia datos, arregla o elimina datos incorrectos, incompletos, con un formato incorrecto o duplicados. Cuando da forma a los datos, personaliza dichos datos al filtrar, ordenar, combinar o eliminar columnas y realizar operaciones.

Se crea un Flujo de Data Refinery como un conjunto de operaciones ordenadas en los datos. Data Refinery incluye una interfaz gráfica para perfilar y validar sus datos y posee más de 20 gráficos personalizables que le proporcionan perspectivas y conocimientos sobre sus datos. Al guardar el conjunto de datos refinado, habitualmente se carga en una ubicación distinta de la que se lee. De este modo, los datos de origen permanecen inalterados por el proceso de refinamiento.

Más información sobre cómo refinar datos

Vea un vídeo sobre cómo refinar datos

Ver vídeo Vea este vídeo para ver cómo refinar los datos.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.

Probar un tutorial para refinar los datos

En esta guía de aprendizaje, realizará estas tareas:

Tarea 1: Abrir un proyecto.
Tarea 2: Abrir el conjunto de datos en Data Refinery.
Tarea 3: Revisar los datos con Perfil y Visualizaciones.
Tarea 4: Refinar los datos.
Tarea 5: Ejecutar un trabajo para el flujo de Data Refinery .
Tarea 6: Crear otro activo de datos desde el flujo Data Refinery .
Tarea 7: Ver los activos de datos y el flujo de Data Refinery en el proyecto.

Le llevará aproximadamente 30 minutos el completar esta guía de aprendizaje.

Sugerencias para completar esta guía de aprendizaje

Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.

Utilizar la imagen en imagen de vídeo

Sugerencia: Inicie el vídeo y, a continuación, a medida que se desplaza por el tutorial, el vídeo se desplaza al modo de imagen en imagen. Cierre la tabla de contenido de vídeo para obtener la mejor experiencia con la imagen en imagen. Puede utilizar el modo de imagen en imagen para poder seguir el vídeo mientras completa las tareas de este tutorial. Pulse las indicaciones de fecha y hora para cada tarea a seguir.

La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:

Cómo utilizar la imagen en la imagen y los capítulos

Obtener ayuda en la comunidad

Si necesitas ayuda con este tutorial, puedes hacer una pregunta o encontrar una respuesta en el foro de debate de la Comunidadwatsonx.

Configurar las ventanas del navegador

Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.

Guía de aprendizaje en paralelo e interfaz de usuario

Sugerencia: Si encuentra una visita guiada al completar esta guía de aprendizaje en la interfaz de usuario, pulse Quizás más tarde.

Tarea 1: Abrir un proyecto

Necesita un proyecto para almacenar los datos y el flujo de Data Refinery. Puede utilizar el proyecto de recinto de seguridad o crear un proyecto.

En el menú de navegación ' , seleccione Proyectos > Ver todos los proyectos
Abra el proyecto de recinto de seguridad. Si desea utilizar un proyecto nuevo:
1. Pulse Nuevo proyecto.
2. Seleccione Crear un proyecto vacío.
3. Especifique un nombre y una descripción opcional para el proyecto.
4. Elija una instancia de servicio de almacenamiento de objetos existente o cree una nueva.
5. Pulse Crear.

' Comprueba tu progreso

La imagen siguiente muestra un proyecto nuevo vacío.

Para obtener más información o ver un vídeo, consulte Creación de un proyecto.

Tarea 2: Abrir el conjunto de datos en Data Refinery

vídeo tutorial de vista previa Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 00:05.

Siga estos pasos para añadir un activo de datos al proyecto y crear un flujo de Data Refinery . El conjunto de datos que utilizará en esta guía de aprendizaje está disponible en el concentrador de recursos.

Acceda a los datos de la compañía aérea en el centro de recursos.
Pulse Añadir al proyecto.
Seleccione el proyecto en la lista y pulse Añadir.
Después de añadir el conjunto de datos, pulse Ver proyecto.

Para obtener más información sobre cómo añadir un activo de datos desde el concentrador de recursos a un proyecto, consulte Carga y acceso a datos en un cuaderno.
En la pestaña Activos , pulse el activo de datos airline-data.csv para obtener una vista previa de su contenido.
Pulse Preparar datos para abrir un ejemplo del archivo en Data Refineryy espere hasta que Data Refinery lea y procese un ejemplo de los datos.
Cierre los paneles Información y Pasos .

' Comprueba tu progreso

La imagen siguiente muestra el activo de datos de línea aérea abierto en Data Refinery.

Tarea 3: Revisar los datos con Perfil y Visualizaciones

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 00:47.

El contenido de un activo se perfila automáticamente y se clasifica en función de los valores de esas columnas. Siga estos pasos para utilizar las pestañas Perfil y Visualizaciones para explorar los datos.

Sugerencia: Utilice las páginas Perfil y Visualizaciones para ver los cambios en los datos a medida que los refina.

Pulse el separador Perfil para revisar la distribución de frecuencias de los datos para que pueda encontrar los valores atípicos.
1. Desplácese por las columnas para ver las estadísticas de cada columna. Las estadísticas muestran el rango intercuartil, mínimo, máximo, mediana y desviación estándar en cada columna.
2. Pase el cursor por encima de una barra para ver detalles adicionales.
La siguiente imagen muestra la pestaña Perfil:
Pulse la pestaña Visualizaciones.
1. Seleccione la columna UniqueCarrier para visualizarla. Los gráficos sugeridos tienen un punto azul junto a sus iconos.
2. Pulse el gráfico Circular . Utilice las diferentes perspectivas disponibles en los gráficos para identificar patrones, conexiones y relaciones dentro de los datos.

' Comprueba tu progreso

La imagen siguiente muestra la pestaña Visualizaciones. Ahora está preparado para refinar los datos.

Tarea 4: Refinar los datos

Operaciones de Data Refinery

Data Refinery utiliza dos tipos de operaciones para refinar datos, Operaciones de GUI y operaciones de codificación. Utilizará ambos tipos de operaciones en esta guía de aprendizaje.

Las operaciones de GUI pueden constar de varios pasos. Seleccione una operación de Nuevo paso. Un subconjunto de las operaciones GUI también está disponible en el menú Desbordamiento de cada columna ().

Cuando abre un archivo en Data Refinery, la operación Convertir tipo de columna se aplica automáticamente como primer paso para convertir cualquier tipo de datos que no sea de serie a tipos de datos inferidos (por ejemplo, a Integer, Date, Boolean, etc.). Este paso se puede deshacer o editar.
Las operaciones de codificación son plantillas interactivas para operaciones, funciones y operadores lógicos de codificación. La mayoría de las operaciones tienen ayuda interactiva. Pulse en el nombre de la operación en el recuadro de texto de la línea de mandatos para ver las operaciones de codificación y sus opciones de sintaxis.

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 01:16.

El refinamiento de datos es una serie de pasos para crear un Flujo de refinería de datos. A medida que avance por esta tarea, consulte el panel Pasos para seguir su progreso. Puede seleccionar un paso para suprimirlo o editarlo. Si te equivocas, también puedes hacer clic en el icono Deshacer ' . Siga estos pasos para refinar los datos:

Vuelva a la pestaña Datos.
Seleccione la columna Año. Haga clic en el menú Desbordamiento () y elija Orden descendente.
Pulse Pasos para ver el nuevo paso en el panel Pasos .
Vamos a concentrarnos en los retrasos por compañía aérea específica. Esta guía de aprendizaje utiliza United Airlines (UA), pero puede elegir cualquier compañía aérea.
1. Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Filtro.
2. Elija la columna UniqueCarrier.
3. Para Operador, seleccione Es igual a.
4. Para Valor, escriba la serie de la línea aérea para la que desea ver información de retrasos. Por ejemplo, ' .
5. Haga clic en Aplicar. Desplácese a la columna UniqueCarrier para ver los resultados.
Cree una nueva columna que añada los tiempos de retraso de llegada y salida juntos.
1. Seleccione la columna DepDelay .
2. Observe que la operación Convertir tipo de columna se ha aplicado automáticamente como primer paso para convertir los tipos de datos de Serie en todas las columnas cuyos valores son números para tipos de datos de entero.
3. Pulse Nuevo paso y seleccione la operación de la GUI Calcular.
4. Para Operador, seleccione Adición.
5. Seleccione Columnay, a continuación, elija la columna ArrDelay .
6. Seleccione Crear nueva columna para los resultados.
7. For Nuevo nombre de columna, type .
8. Puede colocar la nueva columna al final de la lista de columnas o junto a la columna original. En este caso, seleccione Siguiente a la columna original.
9. Haga clic en Aplicar. Se añade la nueva columna RetrasoTotal.
Mueva la nueva columna TotalDelay al principio del conjunto de datos:
1. En el recuadro de texto de la línea de mandatos, elija la operación seleccionar.
2. Pulse la palabra selecty, a continuación, seleccione select (`<column>`, todo ()).
3. Pulse `<column>`y seleccione la columna TotalDelay. Cuando haya terminado, el mandato debe tener el aspecto siguiente:
```
select(`TotalDelay`, everything())
```
4. Haga clic en Aplicar. La columna TotalDelay es ahora la primera columna.
Reduzca los datos a cuatro columnas: Year, Month, DayofMonth, and TotalDelay. Utilice la operación de codificación group_by para dividir las columnas en grupos de año, mes y día.
1. En el recuadro de texto de la línea de mandatos, elija la operación group_by.
2. Pulse <column>y seleccione la columna Year.
3. Antes del paréntesis de cierre, escriba: . Cuando haya terminado, el mandato debe tener el aspecto siguiente:
```
group_by(`Year`,Month,DayofMonth)
```
4. Haga clic en Aplicar.
5. Utilice la operación de codificación seleccionar para la columna TotalDelay. En el recuadro de texto de la línea de mandatos, seleccione la operación seleccionar.
  Pulse <column> y elija la columna TotalDelay. El mandato debería ser parecido a:
```
select(`TotalDelay`)
```
6. Haga clic en Aplicar. Los datos configurados ahora constan de las columnas Year, Month, DayofMonth, and TotalDelay.
  
  La siguiente imagen de pantalla muestra las cuatro primeras filas de los datos.
Mostrar la media de los valores de la columna TotalDelay y crear una nueva columna AverageDelay :
1. Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Agregado.
2. En Columna, seleccione TotalDelay.
3. Para Operador, seleccione Media.
4. For Nombre de la columna agregada, type .
5. Haga clic en Aplicar.
  
  La nueva columna AverageDelay es el promedio de todos los tiempos de retardo.

' Comprueba tu progreso

La imagen siguiente muestra las primeras cuatro filas de los datos.

Tarea 5: Ejecutar un trabajo para el flujo de Data Refinery

vídeo tutorial de vista previa Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 04:16.

Cuando ejecuta un trabajo para el flujo de Data Refinery, se ejecutan los pasos en todo el conjunto de datos. Seleccione el tiempo de ejecución y añada una planificación puntual o cíclica. La salida del flujo de Data Refinery se añade a los activos de datos de proyecto. Siga estos pasos para ejecutar un trabajo para crear el conjunto de datos refinado.

En la barra de herramientas Data Refinery, haga clic en el icono Trabajos y seleccione Guardar y crear un trabajo.
Escriba un nombre y una descripción para el trabajo y pulse Siguiente.
Seleccione un entorno de ejecución y pulse Siguiente.
(Opcional) Pulse el botón de conmutación para planificar una ejecución. Especifique la fecha, la hora y si desea que el trabajo se repita y pulse Siguiente.
(Opcional) Active las notificaciones para este trabajo, y pulse Siguiente.
Revise los detalles y haga clic en Crear y ejecutar para ejecutar el trabajo inmediatamente.
Cuando se cree el trabajo, pulse el enlace detalles del trabajo en la notificación para ver el trabajo en el proyecto. Como alternativa, puede ir hasta la pestaña Trabajos del proyecto y pulsar el nombre del trabajo para abrirlo.
Cuando el Estado del trabajo es Completado, utilice la pista de navegación del proyecto para volver al separador Activos del proyecto.
Pulse la sección Datos > Activos de datos para ver la salida del flujo de Data Refinery , airline-data_shaped.csv.
Pulse la sección Flujos > Flujos de Data Refinery para ver el flujo de Data Refinery , airline-data.csv_flow.

' Comprueba tu progreso

La imagen siguiente muestra la pestaña Activos con el flujo de Data Refinery y el activo con forma.

Tarea 6: Crear otro activo de datos desde el flujo de Data Refinery

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo a partir del minuto 05:26.

Siga estos pasos para refinar más el conjunto de datos editando el flujo Data Refinery :

Pulse airline-data.csv_flow para abrir el flujo en Data Refinery.
Ordene la columna AverageDelay en orden descendente.
1. Seleccione la columna AverageDelay .
2. Haga clic en el menú Desbordamiento de la columna () y, a continuación, seleccione Orden descendente.
Haga clic en el icono de configuración de Flujo ' .
Pulse el panel Conjunto de datos de destino .
Pulse Editar propiedades.
1. En el cuadro de diálogo Propiedades de formato de destino, cambie el nombre del activo de datos a ' .
2. Pulse Guardar para volver a los valores de flujo.
Pulse Aplicar para guardar los valores.
En la barra de herramientas Data Refinery, haga clic en el icono Trabajos y seleccione Guardar y ver trabajos.
Seleccione el trabajo para los datos de la compañía aérea y pulse Ver.
En la barra de herramientas de la ventana Trabajo, haga clic en el icono Ejecutar trabajo.

' Comprueba tu progreso

La imagen siguiente muestra los detalles del trabajo completado.

Tarea 7: Ver los activos de datos y el flujo de Data Refinery en el proyecto

vídeo tutorial de vista previa ' Para previsualizar esta tarea, vea el vídeo que comienza en 06:40.

Ahora siga estos pasos para ver los tres activos de datos, el original, el primer conjunto de datos refinado y el segundo conjunto de datos refinado:

Cuando se haya completado el trabajo, vaya a la página del proyecto.
Pulse el separador Activos.
En la sección Activos de datos, verá el conjunto de datos original que ha cargado y la salida de los dos flujos de Data Refinery.
- airline-data_sorted_shaped.csv
- airline-data_csv_shaped
- airline-data.csv
Pulse el activo de datos línea aérea-data_csv_con forma para ver el retardo medio sin ordenar. Vuelva a la pestaña Activos .
Pulse el activo de datos airline-data_sorted_shaped.csv para ver el retardo medio clasificado en orden descendente. Vuelva a la pestaña Activos .
Pulse la sección Flujos > Flujos de Data Refinery muestra el flujo de Data Refinery : airline-data.csv_flow.

' Comprueba tu progreso

La imagen siguiente muestra la pestaña Activos con todos los activos visualizados.

Próximos pasos

Ahora los datos están listos para ser utilizados. Por ejemplo, usted u otros usuarios pueden realizar cualquiera de estas tareas:

Recursos adicionales

Ver más vídeos.
Busque conjuntos de datos de ejemplo, proyectos, modelos, solicitudes y cuadernos en el concentrador de recursos para obtener experiencia práctica:

cuadernos ' que puedes añadir a tu proyecto para empezar a analizar datos y construir modelos.

' Proyectos que puede importar y que contienen cuadernos, conjuntos de datos, avisos y otros recursos.

' Conjuntos de datos que puedes añadir a tu proyecto para refinar, analizar y construir modelos.

' Avisos que puede utilizar en el Laboratorio de avisos para avisar a un foundation model.

Modelos de la Fundación que puede utilizar en el Prompt Lab.

Tema principal: Guías de aprendizaje de inicio rápido

¿Fue útil el tema?

0/1000

Vídeos sobre Data RefineryCopy link to section

Vea un vídeo sobre cómo refinar datosCopy link to section

Probar un tutorial para refinar los datosCopy link to section

Utilizar la imagen en imagen de vídeoCopy link to section

Obtener ayuda en la comunidadCopy link to section

Configurar las ventanas del navegadorCopy link to section

' Comprueba tu progresoCopy link to section

' Comprueba tu progresoCopy link to section

' Comprueba tu progresoCopy link to section

Operaciones de Data RefineryCopy link to section

' Comprueba tu progresoCopy link to section

' Comprueba tu progresoCopy link to section

' Comprueba tu progresoCopy link to section

' Comprueba tu progresoCopy link to section

Próximos pasosCopy link to section

Recursos adicionalesCopy link to section

Vídeos sobre Data Refinery

Vea un vídeo sobre cómo refinar datos

Probar un tutorial para refinar los datos

Utilizar la imagen en imagen de vídeo

Obtener ayuda en la comunidad

Configurar las ventanas del navegador

' Comprueba tu progreso

' Comprueba tu progreso

' Comprueba tu progreso

Operaciones de Data Refinery

' Comprueba tu progreso

' Comprueba tu progreso

' Comprueba tu progreso

' Comprueba tu progreso

Próximos pasos

Recursos adicionales