Guía de aprendizaje de Data Refinery: Cómo dar forma a los datos en bruto

Esta guía de aprendizaje muestra algunas de las muchas posibilidades que Data Refinery ofrece para dar forma a los datos.

Acerca de esta guía de aprendizaje

Esta guía de aprendizaje es para los usuarios que utilizan Data Refinery por primera vez. Empezará con un archivo CSV de origen que contiene datos sobre diferentes aerolíneas. Creará un flujo de Refinería de datos que refina los datos para una línea aérea con columnas para los tiempos de llegada y retraso totales, agrupados por año, mes y día, con una columna ordenada para el promedio (media) de todos los tiempos de retardo.

Esta guía de aprendizaje sigue los pasos del vídeo Dar forma a los datos sin formato en Data Refinery. Después de cargar el activo de datos, podrá seguir el vídeo a medida que siga los pasos.

Este vídeo proporciona un método visual como una alternativa a seguir los pasos escritos incluidos en esta documentación.

Se tarda aproximadamente 30 minutos en completar esta guía de aprendizaje.

Requisitos previos

  1. Regístrese en Cloud Pak for Data como un servicio.
  2. Cree un proyecto:
  3. Elija Proyectos > Ver todos los proyectos en el menú y, a continuación, pulse Nuevo proyecto en la página Mis proyectos.
  4. Seleccione para crear un proyecto vacío. Puede asignar al proyecto el nombre que desee.

Cómo traer los datos a Data Refinery

  1. Descargue el Archivo airline-data.csv (1,5 MB) Enlace externo.

    Pulse con el botón derecho del ratón en la ventana del navegador y, a continuación, seleccione Guardar página como o Guardar como en función del navegador. (Para Safari: Elegir Formato: Origen de página). Asegúrese de que el nombre del archivo descargado es airline-data.csv.

  2. Añada el archivo airline-data.csv al proyecto:

    1. En la página Activos del proyecto, pulse Añadir al proyecto > Datos.

    2. En el panel Cargar que se abre, vaya al archivo airline-data.csv. Permanezca en la página hasta que se complete la carga.

    El archivo airline-data.csv se añade al proyecto como un activo de datos.

  3. Vaya a la página Activos del proyecto y pulse el activo de datos airline-data.csv para obtener una vista previa de su contenido.

  4. Pulse Refinar para abrir un ejemplo del archivo en Data Refinery.

Revisión de los datos con Perfil y Visualizaciones

  1. Pulse la pestaña Perfil para revisar el valor de frequencydistribution{: new_window} de los datos para que pueda encontrar los valores atípicos. Las estadísticas muestran el mínimo, el máximo, el promedio y el número de valores exclusivos en cada columna.
    Pestaña Perfil
  2. Haga clic en la pestaña Visualizaciones. Seleccione las columnas que desea visualizar y, a continuación, pulse Visualizar datos. Los gráficos sugeridos tienen un punto azul junto a sus iconos. Utilice las diferentes perspectivas disponibles en los gráficos para identificar patrones, conexiones y relaciones dentro de los datos.
    Pestaña Visualizaciones

Sugerencia: utilice las páginas Perfil y Visualizaciones para ver los cambios en los datos a medida que los refina.

Operaciones de Data Refinery

Data Refinery utiliza dos tipos de operaciones para refinar datos, operaciones de GUI y operaciones de codificación. Utilizará ambos tipos de operaciones en esta guía de aprendizaje.

  • Las operaciones de GUI pueden constar de varios pasos. Seleccione una operación de Nuevo paso. Un subconjunto de las operaciones de la GUI también está disponible en el menú de desbordamiento de cada columna (Menú de desbordamiento).

    Cuando abre un archivo en Data Refinery, la operación Convertir tipo de columna se aplica automáticamente como primer paso para convertir cualquier tipo de datos que no sea de serie a tipos de datos inferidos (por ejemplo, a Integer, Date, Boolean, etc.). Este paso se puede deshacer o editar.

  • Las operaciones de codificación son plantillas interactivas para operaciones de codificación, funciones y operadores lógicos. La mayoría de las operaciones tienen ayuda interactiva. Pulse en el nombre de la operación en el recuadro de texto de la línea de mandatos para ver las operaciones de codificación y sus opciones de sintaxis.

Cómo refinar los datos

El refinamiento de datos es una serie de pasos para crear un Flujo de refinería de datos. A medida que recorra esta guía de aprendizaje, visualice el panel Pasos para seguir su progreso. Puede seleccionar un paso para suprimirlo o editarlo. Si comete un error, también puede pulsar el icono Deshacer Icono Deshacer.

  1. Vuelva a la pestaña Datos.

  2. Seleccione la columna Año. Pulse el menú de desbordamiento (Menú de desbordamiento) y elija Clasificación ascendente.

  3. Vamos a concentrarnos en los retrasos por compañía aérea específica:

    Esta guía de aprendizaje utiliza United Airlines (UA), pero puede elegir cualquier compañía aérea.

  4. Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Filtrar.

  5. Elija la columna UniqueCarrier.

  6. Para Operador, seleccione Es igual que.

  7. Para Valor, especifique la serie para la línea aérea para la que desea ver información de retrasos. Por ejemplo, UA.
    Operación de filtro

  8. Pulse Aplicar.

  9. Cree una nueva columna que añada los tiempos de retraso de llegada y salida juntos.

    La operación Convertir tipo de columna se ha aplicado automáticamente como el primer paso para convertir los tipos de datos de serie en todas las columnas cuyos valores son números a tipos de datos de entero.

  10. Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Calcular.

  11. Elija la columna ArrDelay y pulse Siguiente.

  12. Para Operador, seleccione Adición.

  13. Especifique "Columna" y, a continuación, seleccione la columna DepDelay.

  14. Seleccione Crear nueva columna para los resultados.

  15. Para Nuevo nombre de columna, escriba TotalDelay.
    Operación Calcular

  16. Pulse Aplicar.

La nueva columna, TotalDelay, se añade al final de la lista de columnas.

  1. Mueva la nueva columna TotalDelay al principio del conjunto de datos:

    1. En el recuadro de texto de la línea de mandatos, elija la operación seleccionar.

    2. Haga clic en la palabra select y, a continuación, elija: select(`<column>`, everything())

    3. Pulse `<column>` y, a continuación, seleccione la columna TotalDelay.

      Cuando haya terminado, el mandato debe tener el aspecto siguiente:

      select(`TotalDelay`, everything())
      
    4. Pulse Aplicar.

      La columna TotalDelay es ahora la primera columna.

  2. Reduzca los datos a cuatro columnas: Year, Month, DayofMonth y TotalDelay. Utilice la operación de codificación group_by para dividir las columnas en grupos de año, mes y día.

    1. En el recuadro de texto de la línea de mandatos, elija la operación group_by.

    2. Pulse <column> y, a continuación, seleccione la columna Year.

    3. Antes del paréntesis de cierre, escriba: ,Month,DayofMonth

      Cuando haya terminado, el mandato debe tener el aspecto siguiente:

      group_by(`Year`,Month,DayofMonth)
      
    4. Pulse Aplicar.

    5. Utilice la operación de codificación select para la columna TotalDelay. En el recuadro de texto de la línea de mandatos, seleccione la operación seleccionar.
      Pulse <column> y elija la columna TotalDelay.

      El mandato debería ser parecido a:

      select(`TotalDelay`)
      
    6. Pulse Aplicar.

      Los datos con forma ahora constan de las columnas Year, Month, DayofMonth y TotalDelay.

      Las primeras cuatro filas de los datos.
      Las primeras cuatro filas del flujo de Refinería de datos con las columnas Year, Month, DayofMonth y TotalDelay

  3. Muestre el promedio de los valores de la columna TotalDelay. Cambie el nombre de la columna TotalDelay por delay:

  4. Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Agregado.

  5. Seleccione la columna TotalDelay y pulse Siguiente.

  6. Para AGGREGATION 1, seleccione Mean (Media).

  7. Para Nombre de la columna agregada, escriba delay.
    Operación de agregado

  8. Pulse Aplicar.

    La nueva columna delay (retardo) es el promedio de todos los tiempos de retardo.

    Las primeras cuatro filas de los datos.
    Las cuatro primeras filas del flujo de Refinería de datos con las columnas Year, Month, DayofMonth, y delay

Ejecutar un trabajo para el flujo de Data Refinery

{: #job}Cuando ejecuta un trabajo para el flujo de Data Refinery, se ejecutan los pasos en todo el conjunto de datos. Seleccione el tiempo de ejecución y añada una planificación puntual o cíclica. La salida del flujo de Data Refinery se añade a los activos de datos de proyecto.

  1. En la barra de herramientas de Data Refinery, pulse el icono de trabajos y seleccione Guardar y crear un trabajo.
    Guardar y crear un trabajo

  2. Escriba un nombre para el trabajo, la descripción, y seleccione un tiempo de ejecución.
    crear trabajo

  3. Haga clic en Crear y ejecutar.

    Vaya a la página Trabajos del proyecto y pulse el nombre del trabajo. Cuando el estado del trabajo es Completado, la salida del flujo de Refinería de datos, airline-data_csv_shaped, se añade a la sección Activos de datos de la página Activos. El nombre predeterminado del flujo de Refinería de datos es airline-data_flow. Se añade a la sección Flujos de refinería de datos.

Creación de otro conjunto de datos desde el flujo de Data Refinery

  1. Abra el flujo de Data Refinery. En la página de trabajo, pulse el nombre del flujo de Refinería de datos bajo Activo asociado. De forma alternativa, vaya a la página Activos del proyecto, desplácese hacia abajo hasta la sección Flujos de refinería de datos y pulse el nombre del flujo de Refinería de datos.

Se abre el flujo de Data Refinery.

  1. Ordene la columna delay (retardo) en orden descendente. Seleccione la columna delay, pulse el menú de desbordamiento de columna (Menú de desbordamiento) y, a continuación, seleccione Orden descendente.
  2. En el panel Detalles, pulse Editar.
  3. En el panel SALIDA DE FLUJO DE REFINERÍA DE DATOS, pulse Editar salida. Cambie el NOMBRE DE CONJUNTO DE DATOS a: airline-data_sorted_shaped.csv
    Salida modificada

    1. Pulse en la marca de selección para guardar el cambio.
  4. Pulse Listo.

  5. En la barra de herramientas de Data Refinery, pulse el icono de trabajos y seleccione Guardar y ver trabajos.
    Guardar y ver trabajos

  6. Seleccione el trabajo para los datos de la aerolínea y, a continuación, pulse Ver.

  7. En la barra de herramientas de la ventana Trabajo, pulse el icono Ejecutar trabajos.
    Icono de ejecutar trabajos

Visualización de los activos de datos y de flujo de Data Refinery en el proyecto

  1. Cuando se haya completado el trabajo, vaya a la página del proyecto.
  2. Pulse el separador Activos.
  3. Desplácese hasta Activos de datos. Verá el conjunto de datos original que ha subido y la salida de los dos flujos de Refinería de datos.

    airline-data_sorted_shaped.csv
    airline-data_csv_shaped
    airline-data.csv

    Si pulsa el activo de datos airline-data_shaped.csv, verá el retardo medio sin clasificar. Pulse el activo de datos airline-data_sorted_shaped.csv para ver el retardo medio clasificado en orden descendente.

    La sección Flujos de refinería de datos muestra el flujo de Refinería de datos:

    airline-data_flow

Tema principal: Cómo refinar datos