Guía de aprendizaje de Data Refinery: Cómo dar forma a los datos en bruto
Esta guía de aprendizaje muestra algunas de las muchas posibilidades que Data Refinery ofrece para dar forma a los datos.
- Acerca de esta guía de aprendizaje
- Requisitos previos
- Cómo traer los datos a Data Refinery
- Revisión de los datos con Perfil y Visualizaciones
- Operaciones de Data Refinery
- Cómo refinar los datos
- Ejecutar un trabajo para el flujo de Data Refinery
- Creación de otro conjunto de datos desde el flujo de Data Refinery
- Visualización de los activos de datos y de flujo de Data Refinery en el proyecto
Acerca de esta guía de aprendizaje
Esta guía de aprendizaje es para los usuarios que utilizan Data Refinery por primera vez. Empezará con un archivo CSV de origen que contiene datos sobre diferentes aerolíneas. Creará un flujo de Refinería de datos que refina los datos para una línea aérea con columnas para los tiempos de llegada y retraso totales, agrupados por año, mes y día, con una columna ordenada para el promedio (media) de todos los tiempos de retardo.
Esta guía de aprendizaje sigue los pasos del vídeo Dar forma a los datos sin formato en Data Refinery. Después de cargar el activo de datos, podrá seguir el vídeo a medida que siga los pasos.
Este vídeo proporciona un método visual como una alternativa a seguir los pasos escritos incluidos en esta documentación.
Se tarda aproximadamente 30 minutos en completar esta guía de aprendizaje.
Requisitos previos
- Regístrese en Cloud Pak for Data como un servicio.
- Cree un proyecto:
- Elija Proyectos > Ver todos los proyectos en el menú y, a continuación, pulse Nuevo proyecto en la página Mis proyectos.
- Seleccione para crear un proyecto vacío. Puede asignar al proyecto el nombre que desee.
Cómo traer los datos a Data Refinery
-
Descargue el Archivo airline-data.csv (1,5 MB) .
Pulse con el botón derecho del ratón en la ventana del navegador y, a continuación, seleccione Guardar página como o Guardar como en función del navegador. (Para Safari: Elegir Formato: Origen de página). Asegúrese de que el nombre del archivo descargado es
airline-data.csv
. -
Añada el archivo
airline-data.csv
al proyecto:-
En la página Activos del proyecto, pulse Añadir al proyecto > Datos.
-
En el panel Cargar que se abre, vaya al archivo
airline-data.csv
. Permanezca en la página hasta que se complete la carga.
El archivo
airline-data.csv
se añade al proyecto como un activo de datos. -
-
Vaya a la página Activos del proyecto y pulse el activo de datos
airline-data.csv
para obtener una vista previa de su contenido. -
Pulse Refinar para abrir un ejemplo del archivo en Data Refinery.
Revisión de los datos con Perfil y Visualizaciones
- Pulse la pestaña Perfil para revisar el valor de
frequencydistribution{: new_window} de los datos para que pueda encontrar los valores atípicos. Las estadísticas muestran el mínimo, el máximo, el promedio y el número de valores exclusivos en cada columna.
- Haga clic en la pestaña Visualizaciones. Seleccione las columnas que desea visualizar y, a continuación, pulse Visualizar datos. Los gráficos sugeridos tienen un punto azul junto a sus iconos. Utilice las diferentes perspectivas disponibles en los gráficos para identificar patrones, conexiones y relaciones dentro de los datos.
Sugerencia: utilice las páginas Perfil y Visualizaciones para ver los cambios en los datos a medida que los refina.
Operaciones de Data Refinery
Data Refinery utiliza dos tipos de operaciones para refinar datos, operaciones de GUI y operaciones de codificación. Utilizará ambos tipos de operaciones en esta guía de aprendizaje.
-
Las operaciones de GUI pueden constar de varios pasos. Seleccione una operación de Nuevo paso. Un subconjunto de las operaciones de la GUI también está disponible en el menú de desbordamiento de cada columna ().
Cuando abre un archivo en Data Refinery, la operación Convertir tipo de columna se aplica automáticamente como primer paso para convertir cualquier tipo de datos que no sea de serie a tipos de datos inferidos (por ejemplo, a Integer, Date, Boolean, etc.). Este paso se puede deshacer o editar.
- Las operaciones de codificación son plantillas interactivas para operaciones de codificación, funciones y operadores lógicos. La mayoría de las operaciones tienen ayuda interactiva. Pulse en el nombre de la operación en el recuadro de texto de la línea de mandatos para ver las operaciones de codificación y sus opciones de sintaxis.
Cómo refinar los datos
El refinamiento de datos es una serie de pasos para crear un Flujo de refinería de datos. A medida que recorra esta guía de aprendizaje, visualice el panel Pasos para seguir su progreso. Puede seleccionar un paso para suprimirlo o editarlo. Si comete un error, también puede pulsar el icono Deshacer .
-
Vuelva a la pestaña Datos.
-
Seleccione la columna Año. Pulse el menú de desbordamiento () y elija Clasificación ascendente.
-
Vamos a concentrarnos en los retrasos por compañía aérea específica:
Esta guía de aprendizaje utiliza United Airlines (UA), pero puede elegir cualquier compañía aérea.
-
Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Filtrar.
-
Elija la columna UniqueCarrier.
-
Para Operador, seleccione Es igual que.
-
Para Valor, especifique la serie para la línea aérea para la que desea ver información de retrasos. Por ejemplo,
UA
.
-
Pulse Aplicar.
-
Cree una nueva columna que añada los tiempos de retraso de llegada y salida juntos.
La operación Convertir tipo de columna se ha aplicado automáticamente como el primer paso para convertir los tipos de datos de serie en todas las columnas cuyos valores son números a tipos de datos de entero.
-
Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Calcular.
-
Elija la columna ArrDelay y pulse Siguiente.
-
Para Operador, seleccione Adición.
-
Especifique "Columna" y, a continuación, seleccione la columna DepDelay.
-
Seleccione Crear nueva columna para los resultados.
-
Para Nuevo nombre de columna, escriba
TotalDelay
.
-
Pulse Aplicar.
La nueva columna, TotalDelay, se añade al final de la lista de columnas.
-
Mueva la nueva columna TotalDelay al principio del conjunto de datos:
-
En el recuadro de texto de la línea de mandatos, elija la operación seleccionar.
-
Haga clic en la palabra select y, a continuación, elija: select(`
<column>
`, everything()) -
Pulse
`<column>`
y, a continuación, seleccione la columna TotalDelay.Cuando haya terminado, el mandato debe tener el aspecto siguiente:
select(`TotalDelay`, everything())
-
Pulse Aplicar.
La columna TotalDelay es ahora la primera columna.
-
-
Reduzca los datos a cuatro columnas: Year, Month, DayofMonth y TotalDelay. Utilice la operación de codificación group_by para dividir las columnas en grupos de año, mes y día.
-
En el recuadro de texto de la línea de mandatos, elija la operación group_by.
-
Pulse
<column>
y, a continuación, seleccione la columna Year. -
Antes del paréntesis de cierre, escriba:
,Month,DayofMonth
Cuando haya terminado, el mandato debe tener el aspecto siguiente:
group_by(`Year`,Month,DayofMonth)
-
Pulse Aplicar.
-
Utilice la operación de codificación select para la columna TotalDelay. En el recuadro de texto de la línea de mandatos, seleccione la operación seleccionar.
Pulse<column>
y elija la columna TotalDelay.El mandato debería ser parecido a:
select(`TotalDelay`)
-
Pulse Aplicar.
Los datos con forma ahora constan de las columnas Year, Month, DayofMonth y TotalDelay.
Las primeras cuatro filas de los datos.
-
-
Muestre el promedio de los valores de la columna TotalDelay. Cambie el nombre de la columna TotalDelay por delay:
-
Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Agregado.
-
Seleccione la columna TotalDelay y pulse Siguiente.
-
Para AGGREGATION 1, seleccione Mean (Media).
-
Para Nombre de la columna agregada, escriba
delay
.
-
Pulse Aplicar.
La nueva columna delay (retardo) es el promedio de todos los tiempos de retardo.
Las primeras cuatro filas de los datos.
Ejecutar un trabajo para el flujo de Data Refinery
{: #job}Cuando ejecuta un trabajo para el flujo de Data Refinery, se ejecutan los pasos en todo el conjunto de datos. Seleccione el tiempo de ejecución y añada una planificación puntual o cíclica. La salida del flujo de Data Refinery se añade a los activos de datos de proyecto.
-
En la barra de herramientas de Data Refinery, pulse el icono de trabajos y seleccione Guardar y crear un trabajo.
-
Escriba un nombre para el trabajo, la descripción, y seleccione un tiempo de ejecución.
-
Haga clic en Crear y ejecutar.
Vaya a la página Trabajos del proyecto y pulse el nombre del trabajo. Cuando el estado del trabajo es Completado, la salida del flujo de Refinería de datos,
airline-data_csv_shaped
, se añade a la sección Activos de datos de la página Activos. El nombre predeterminado del flujo de Refinería de datos esairline-data_flow
. Se añade a la sección Flujos de refinería de datos.
Creación de otro conjunto de datos desde el flujo de Data Refinery
- Abra el flujo de Data Refinery. En la página de trabajo, pulse el nombre del flujo de Refinería de datos bajo Activo asociado. De forma alternativa, vaya a la página Activos del proyecto, desplácese hacia abajo hasta la sección Flujos de refinería de datos y pulse el nombre del flujo de Refinería de datos.
Se abre el flujo de Data Refinery.
- Ordene la columna delay (retardo) en orden descendente. Seleccione la columna delay, pulse el menú de desbordamiento de columna () y, a continuación, seleccione Orden descendente.
- En el panel Detalles, pulse Editar.
-
En el panel SALIDA DE FLUJO DE REFINERÍA DE DATOS, pulse Editar salida. Cambie el NOMBRE DE CONJUNTO DE DATOS a:
airline-data_sorted_shaped.csv
- Pulse en la marca de selección para guardar el cambio.
-
Pulse Listo.
-
En la barra de herramientas de Data Refinery, pulse el icono de trabajos y seleccione Guardar y ver trabajos.
-
Seleccione el trabajo para los datos de la aerolínea y, a continuación, pulse Ver.
- En la barra de herramientas de la ventana Trabajo, pulse el icono Ejecutar trabajos.
Visualización de los activos de datos y de flujo de Data Refinery en el proyecto
- Cuando se haya completado el trabajo, vaya a la página del proyecto.
- Pulse el separador Activos.
-
Desplácese hasta Activos de datos. Verá el conjunto de datos original que ha subido y la salida de los dos flujos de Refinería de datos.
airline-data_sorted_shaped.csv
airline-data_csv_shaped
airline-data.csv
Si pulsa el activo de datos
airline-data_shaped.csv
, verá el retardo medio sin clasificar. Pulse el activo de datosairline-data_sorted_shaped.csv
para ver el retardo medio clasificado en orden descendente.La sección Flujos de refinería de datos muestra el flujo de Refinería de datos:
airline-data_flow
Tema principal: Cómo refinar datos