Inicio rápido: Refinar datos

Puede ahorrar tiempo de preparación de datos transformando rápidamente grandes cantidades de datos sin formato en información consumible y de alta calidad que está preparada para la analítica. Lea acerca del editor de la herramienta Data Refinery y vea un vídeo y siga una guía de aprendizaje que sea adecuada para principiantes y que no requiera codificación.

El flujo de trabajo básico incluye estas tareas:

  1. Cree un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
  2. Añada sus datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
  3. Abrir los datos en Data Refinery.
  4. Realice los pasos utilizando operaciones para refinar los datos.
  5. Cree y ejecute un trabajo para transformar los datos.

Vídeos sobre Data Refinery

Data Refinery sirve para limpiar y dar forma a datos tabulares con un editor de flujo gráfico. También puede utilizar plantillas interactivas para codificar operaciones, funciones y operadores lógicos. Cuando limpia datos, corrige o elimina los datos que son incorrectos o están incompletos, tiene un formato incorrecto o se encuentran duplicados. Cuando da forma a los datos, personaliza dichos datos al filtrar, ordenar, combinar o eliminar columnas y realizar operaciones.

Se crea un Flujo de Data Refinery como un conjunto de operaciones ordenadas en los datos. Data Refinery incluye una interfaz gráfica para perfilar y validar sus datos y posee más de 20 gráficos personalizables que le proporcionan perspectivas y conocimientos sobre sus datos. Al guardar el conjunto de datos refinado, habitualmente se carga en una ubicación distinta de la que se lee. De este modo, los datos de origen permanecen inalterados por el proceso de refinamiento.

Más información sobre cómo refinar datos

Vea un vídeo sobre cómo refinar datos

Ver vídeo Vea este vídeo para ver cómo refinar los datos.

Este vídeo proporciona un método visual como una alternativa a seguir los pasos escritos incluidos en esta documentación.

  • Tiempo Transcripción
    00:00 Este vídeo muestra cómo dar forma a los datos en bruto mediante Data Refinery.
    00:05 Para empezar a refinar datos de un proyecto, vea el activo de datos y ábralo en Data Refinery.
    00:14 El panel Detalles contiene el nombre del flujo de datos y de la salida del flujo de datos, una vez que haya terminado de refinar los datos.
    00:21 El panel Ayuda proporciona ayuda según contexto para el elemento que actualmente tiene el foco, mientras trabaja para refinar los datos.
    00:31 La pestaña Datos muestra un conjunto de muestras de las filas y columnas del conjunto de datos.
    00:36 Para mejorar el rendimiento, no verá todas las filas del configurador.
    00:40 Pero tenga la seguridad de que cuando haya terminado de refinar los datos, el flujo de datos se ejecutará en el conjunto de datos completo.
    00:48 La pestaña Perfil muestra las estadísticas de frecuencia y resumen de cada una de las columnas.
    00:56 La pestaña Visualizaciones proporciona visualizaciones de datos para las columnas en las que está interesado.
    01:03 Puede especificar el tipo de gráfico y cambiar las opciones de gráfico para visualizar mejor los datos.
    01:14 Los iconos de la derecha le permiten guardar el gráfico como una imagen, restaurar el gráfico y acercar y alejar.
    01:23 Y los iconos de la sección Acciones le permiten empezar de nuevo, mostrar las etiquetas de datos en el gráfico, descargar los detalles del gráfico o la imagen del gráfico y cambiar las preferencias.
    01:38 Ahora hablaremos sobre datos.
    01:40 Empezar con una operación simple, como ordenar según la columna especificada - en este caso, la columna Año.
    01:48 Suponga que desea centrarse en los retrasos de una compañía aérea específica, por lo que puede filtrar los datos para mostrar solo las filas para las que el único transportista es United Airlines.
    02:04 Sería útil ver el retraso total.
    00:06 Puede hacerlo creando una nueva columna para combinar los retrasos de llegada y salida.
    02:13 Observe que el tipo de columna se infiere como entero.
    02:18 Seleccione la columna de retardo de llegada y utilice la operación Calcular.
    02:25 En este caso, añadirá el retardo de salida a la columna seleccionada y creará una nueva columna denominada "TotalDelay".
    02:38 La nueva columna aparece al final de la lista de columnas.
    02:43 Si comete un error, o simplemente decide hacer un cambio, simplemente acceda al flujo de datos y elimine ese paso.
    02:51 Esto deshará esa operación en particular.
    02:55 También puede utilizar los botones rehacer y deshacer.
    02:59 A continuación quiere centrarse en la columna TotalDelay para poder utilizar la operación de selección para mover la columna al principio.
    03:09 Este mandato organiza la columna TotalDelay como la primera de la lista, y todo lo demás viene después.
    03:19 A continuación, utilice la operación group_by para dividir los datos en grupos por Año, Mes y DayofMonth.
    03:30 Por lo tanto, cuando seleccione la columna TotalDelay, verá las columnas Year, Month, DayofMonth y TotalDelay.
    03:40 Por último, desea buscar la media de la columna TotalDelay.
    03:44 Cuando expanda el menú Operaciones, en la sección Organizar encontrará la operación Agregar, que incluye la función Media.
    04:01 Ahora tiene una nueva columna, llamada "retardo", que representa el promedio del retardo total.
    04:10 Ahora, para ejecutar el flujo de datos, guarde y cree un trabajo.
    04:17 Proporcione un nombre para el trabajo y continúe en la siguiente pantalla.
    04:21 El paso Configurar permite revisar cuál será la entrada y la salida de la ejecución del trabajo.
    04:29 La planificación de un trabajo es opcional, pero puede establecer una fecha y repetir el trabajo, si lo desea.
    04:38 Todo parece correcto, así que crea y ejecuta el trabajo.
    04:42 Esto podría tardar varios minutos, porque recuerde que el flujo de datos se ejecutará sobre el conjunto de datos completo.
    04:49 Mientras tanto, puede ver el estado.
    04:53 Cuando la ejecución se haya completado, puede volver a la pestaña Activos y abrir el flujo de Data Refinery para refinar más los datos.
    05:05 Por ejemplo, podría ordenar la columna de retardo en orden descendente.
    05:11 Ahora edite los detalles.
    05:14 Puede especificar una ubicación alternativa, como un origen de datos externo, y cambiar el nombre del flujo de datos o cambiar el nombre del flujo de Data Refinery.
    05:31 Ahora vuelva a ejecutar el flujo de datos; pero esta vez, guarde y vea los trabajos.
    05:38 Seleccione el trabajo que desea ver en la lista y ejecute el trabajo.
    05:48 Cuando la ejecución se complete, vuelva al proyecto y, en la pestaña Activos, verá los tres archivos:
    05:58 El original.
    06:01 El primer conjunto de datos refinado, que muestra el retardo medio sin clasificar.
    06:07 Y el segundo conjunto de datos, que muestra la columna de retardo ordenada en orden descendente.
    06:16 Y, debajo, verá el flujo de datos.
    06:23 Busque más vídeos en la documentación de Cloud Pak for Data as a Service.

Probar un tutorial para refinar los datos

En esta guía de aprendizaje, hará lo siguiente:

  • Cree un proyecto.
  • Cargar datos en el proyecto.
  • Abra el conjunto de datos en Data Refinery.
  • Revise los datos con Perfil y Visualizaciones.
  • Ejecute un trabajo para el flujo de Data Refinery.
  • Cree otro conjunto de datos desde el flujo de Data Refinery.
  • Visualice los activos de datos y su flujo de Data Refinery en el proyecto.

Le llevará aproximadamente 30 minutos el completar esta guía de aprendizaje.

Paso 1: Crear un proyecto

Necesita un proyecto para almacenar los datos y el flujo de Data Refinery.

  1. Si tiene un proyecto existente, ábralo. Si no tiene un proyecto existente, pulse Crear un proyecto en la página de inicio o pulse Nuevo proyecto en la página Proyectos.
  2. Seleccione Crear un proyecto vacío.
  3. En la pantalla Crear un proyecto, añada un nombre y una descripción opcional para el proyecto.
  4. Elija una instancia de servicio de almacenamiento de objetos existente o cree una nueva.

  5. Pulse Crear.

Para obtener más información o ver un vídeo, consulte Creación de un proyecto.

Paso 2: Abrir el conjunto de datos en Data Refinery

Siga estos pasos para crear un flujo de Data Refinery.

Siga estos pasos para utilizar las pestañas Perfil y Visualizaciones para explorar los datos.

  1. Pulse el separador Perfil para revisar la distribución de frecuencias de los datos para que pueda encontrar los valores atípicos. Las estadísticas muestran el rango intercuartil, mínimo, máximo, mediana y desviación estándar en cada columna.
  2. Pulse la pestaña Visualizaciones. Seleccione la columna UniqueCarrier para visualizarla. Los gráficos sugeridos tienen un punto azul junto a sus iconos. Pulse el icono Gráfico circular para visualizar los datos. Utilice las diferentes perspectivas disponibles en los gráficos para identificar patrones, conexiones y relaciones dentro de los datos.

Consejo: Utilice las páginas Perfil y Visualizaciones para ver los cambios en los datos a medida que los refina.

Paso 4: Refinar los datos

Data Refinery utiliza dos tipos de operaciones para refinar datos, Operaciones de GUI y operaciones de codificación. Utilizará ambos tipos de operaciones en esta guía de aprendizaje. El refinamiento de datos comprende una serie de pasos para crear un flujo de Data Refinery. A medida que recorra esta guía de aprendizaje, visualice el panel Pasos para seguir el progreso. Puede seleccionar un paso para suprimirlo o editarlo. Si comete un error, también puede pulsar el icono Deshacer Icono Deshacer.

  1. Vuelva a la pestaña Datos.
  2. Seleccione la columna Año. Pulse el menú Acciones (icono de acciones tres puntos verticales) y seleccione Orden descendente.
  3. Pulse Pasos para ver el panel Pasos.
  4. Vamos a concentrarnos en los retrasos por compañía aérea específica. Esta guía de aprendizaje utiliza United Airlines (UA), pero puede elegir cualquier compañía aérea.
    1. Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Filtro.
    2. Elija la columna UniqueCarrier.
    3. Para Operador, seleccione Es igual a.
    4. Para Valor, escriba la serie de la línea aérea para la que desea ver información de retrasos. Por ejemplo, UA.
    5. Pulse Aplicar. Desplácese a la columna UniqueCarrier para ver los resultados.
  5. Cree una nueva columna que añada los tiempos de retraso de llegada y salida juntos.
    1. Seleccione la columna ArrDelay.
    2. Observe que la operación Convertir tipo de columna se ha aplicado automáticamente como primer paso para convertir los tipos de datos de Serie en todas las columnas cuyos valores son números para tipos de datos de entero.
    3. Pulse Nuevo paso y seleccione la operación de la GUI Calcular.
    4. Para Operador, seleccione Adición.
    5. Seleccione Columna y elija la columna DepDelay.
    6. Seleccione Crear una nueva columna para los resultados.
    7. Para Nuevo nombre de columna, escriba TotalDelay.
    8. Pulse Aplicar. La nueva columna, TotalDelay, se añade al final de la lista de columnas.
  6. Mueva la nueva columna TotalDelay al principio del conjunto de datos:
    1. En el recuadro de texto de la línea de mandatos, elija la operación seleccionar.
    2. Pulse la palabra seleccionar y seleccione select(`<column>`, everything()).
    3. Pulse `<column>`y seleccione la columna TotalDelay. Cuando haya terminado, el mandato debe tener el aspecto siguiente:
      select(`TotalDelay`, everything())
      
    4. Pulse Aplicar. La columna TotalDelay es ahora la primera columna.
  7. Reduzca los datos a cuatro columnas: Year, Month, DayofMonth, and TotalDelay. Utilice la operación de codificación group_by para dividir las columnas en grupos de año, mes y día.
    1. En el recuadro de texto de la línea de mandatos, elija la operación group_by.
    2. Pulse <column>y seleccione la columna Year.
    3. Antes del paréntesis de cierre, escriba: ,Month,DayofMonth. Cuando haya terminado, el mandato debe tener el aspecto siguiente:
      group_by(`Year`,Month,DayofMonth)
      
    4. Pulse Aplicar.
    5. Utilice la operación de codificación seleccionar para la columna TotalDelay. En el recuadro de texto de la línea de mandatos, seleccione la operación seleccionar.
      Pulse <column> y elija la columna TotalDelay. El mandato debería ser parecido a:
      select(`TotalDelay`)
      
    6. Pulse Aplicar. Los datos configurados ahora constan de las columnas Year, Month, DayofMonth, and TotalDelay.
  8. Muestre la media de los valores de la columna TotalDelay y crear una nueva columna delay:
    1. Asegúrese de que la columna TotalDelay está seleccionada y pulse Nuevo paso y seleccione la operación de la GUI Agregar.
    2. Para AGGREGATION 1, seleccione Mean.
    3. Para Nombre de la columna agregada, escriba delay.
    4. Pulse Aplicar. La nueva columna delay es el promedio de todos los tiempos de retraso.

Paso 5: Ejecutar un trabajo para el flujo de Data Refinery

Cuando ejecuta un trabajo para el flujo de Data Refinery, se ejecutan los pasos en todo el conjunto de datos. Seleccione el tiempo de ejecución y añada una planificación puntual o cíclica. La salida del flujo de Data Refinery se añade a los activos de datos de proyecto.

  1. En la barra de herramientas de Data Refinery, pulse el icono de trabajos y seleccione Guardar y crear un trabajo.
  2. Escriba un nombre y una descripción para el trabajo y pulse Siguiente.
  3. Seleccione un entorno de ejecución y pulse Siguiente.
  4. (Opcional) Pulse el botón de conmutación para planificar una ejecución. Especifique la fecha, la hora y si desea que el trabajo se repita y pulse Siguiente.
  5. (Opcional) Active las notificaciones para este trabajo, y pulse Siguiente.
  6. Revise los detalles y pulse Crear y ejecutar para ejecutar el trabajo inmediatamente.
  7. Cuando se cree el trabajo, pulse el enlace detalles del trabajo en la notificación para ver el trabajo en el proyecto. Como alternativa, puede ir hasta la pestaña Trabajos del proyecto y pulsar el nombre del trabajo para abrirlo.
  8. Cuando el Estado para el trabajo sea Completado, utilice la indicación de ruta del proyecto para volver a la pestaña Activos del proyecto. En la sección Activos de datos, verá la salida del flujo de Data Refinery, airline-data_shaped.csv.En la sección Flujos de Data Refinery, verá el nombre predeterminado del flujo de Data Refinery es airline-data.csv_flow.

Paso 6: Creación de otro conjunto de datos desde el flujo de Data Refinery

Refine más el conjunto de datos editando el flujo de Data Refinery.

  1. Pulse para abrir airline-data.csv_flow. El flujo se abre en Data Refinery.
  2. Ordene la columna retardo en orden descendente.
    1. Seleccione la columna retardo.
    2. Pulse el menú Acciones de la columna (icono de acciones de tres puntos verticales) y seleccione Orden descendente.
  3. En el panel Detalles, pulse Editar.
  4. En el panel SALIDA DE FLUJO DE DATA REFINERY, pulse Editar salida. Cambie el NOMBRE DEL CONJUNTO DE DATOS por: airline-data_sorted_shaped.csv
  5. Pulse la marca de selección para guardar el cambio.
  6. Pulse Listo.
  7. En la barra de herramientas Data Refinery, pulse el icono Trabajos y seleccione Guardar y ver trabajos.
  8. Seleccione el trabajo para los datos de la compañía aérea y pulse Ver.
  9. En la barra de herramientas de Ventana de trabajo, pulse el icono Ejecutar trabajo.

Paso 7: Visualización de los activos de datos y de flujo de Data Refinery en el proyecto

Ahora verá los tres activos de datos, el original, el primer conjunto de datos refinado y el segundo conjunto de datos refinado.

  1. Cuando se haya completado el trabajo, vaya a la página del proyecto.
  2. Pulse el separador Activos.
  3. En la sección Activos de datos, verá el conjunto de datos original que ha cargado y la salida de los dos flujos de Data Refinery.

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv

    Si pulsa el activo de datos airline-data_csv_shaped, verá el retardo medio sin clasificar. Pulse el activo de datos airline-data_sorted_shaped.csv para ver el retardo medio clasificado en orden descendente. La sección Flujos de Data Refinery muestra el flujo de Data Refinery: airline-data.csv_flow.

Próximos pasos

Ahora los datos están listos para ser utilizados. Por ejemplo, usted u otros usuarios pueden realizar cualquiera de estas tareas:

Recursos

adicionales

Tema principal: Cómo empezar con la preparación de datos