0 / 0
Volver a la versión inglesa de la documentación
Inicio rápido: Refinar datos

Inicio rápido: Refinar datos

Puede ahorrar tiempo de preparación de datos transformando rápidamente grandes cantidades de datos sin formato en información consumible y de alta calidad que está preparada para la analítica. Lea acerca del editor de la herramienta Data Refinery y vea un vídeo y siga una guía de aprendizaje que sea adecuada para principiantes y que no requiera codificación.

Servicio necesario
Watson Studio o IBM Knowledge Catalog

El flujo de trabajo básico incluye estas tareas:

  1. Cree un proyecto. Los proyectos son la ubicación donde puede colaborar con otros para trabajar con los datos.
  2. Añada sus datos al proyecto. Puede añadir archivos CSV o datos desde un origen de datos remoto mediante una conexión.
  3. Abrir los datos en Data Refinery.
  4. Realice los pasos utilizando operaciones para refinar los datos.
  5. Cree y ejecute un trabajo para transformar los datos.

Vídeos sobre Data Refinery

Data Refinery sirve para limpiar y dar forma a datos tabulares con un editor de flujo gráfico. También puede utilizar plantillas interactivas para codificar operaciones, funciones y operadores lógicos. Cuando limpia datos, arregla o elimina datos incorrectos, incompletos, con un formato incorrecto o duplicados. Cuando da forma a los datos, personaliza dichos datos al filtrar, ordenar, combinar o eliminar columnas y realizar operaciones.

Se crea un Flujo de Data Refinery como un conjunto de operaciones ordenadas en los datos. Data Refinery incluye una interfaz gráfica para perfilar y validar sus datos y posee más de 20 gráficos personalizables que le proporcionan perspectivas y conocimientos sobre sus datos. Al guardar el conjunto de datos refinado, habitualmente se carga en una ubicación distinta de la que se lee. De este modo, los datos de origen permanecen inalterados por el proceso de refinamiento.

Más información sobre cómo refinar datos

Vea un vídeo sobre cómo refinar datos

Ver vídeo Vea este vídeo para ver cómo refinar los datos.

Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.

  • Transcripción de vídeo
    Hora Transcripción
    00:00 Este vídeo muestra cómo dar forma a los datos en bruto mediante Data Refinery.
    00:05 Para empezar a refinar datos de un proyecto, vea el activo de datos y ábralo en Data Refinery.
    00:14 El panel "Información" contiene el nombre para el flujo de datos y para la salida del flujo de datos, una vez que haya terminado de refinar los datos.
    00:23 La pestaña "Datos" le muestra un conjunto de ejemplo de las filas y columnas del conjunto de datos.
    00:29 Para mejorar el rendimiento, no verá todas las filas del shaper.
    00:33 Pero tenga la seguridad de que cuando haya terminado de refinar los datos, el flujo de datos se ejecutará en el conjunto de datos completo.
    00:41 La pestaña "Perfil" le muestra estadísticas de frecuencia y resumen para cada una de sus columnas.
    00:49 La pestaña "Visualizaciones" proporciona visualizaciones de datos para las columnas en las que está interesado.
    00:57 Los gráficos sugeridos tienen un punto azul junto a sus iconos.
    01:03 Utilice las diferentes perspectivas disponibles en los gráficos para identificar patrones, conexiones y relaciones dentro de los datos.
    01:12 Ahora hablaremos sobre datos.
    01:17 Comience con una operación simple, como ordenar en la columna especificada-en este caso, la columna "Año".
    01:27 Supongamos que desea centrarse en los retrasos sólo para una aerolínea específica para que pueda filtrar los datos para mostrar sólo las filas en las que la compañía única es "United Airlines".
    01:47 Sería útil ver el retraso total.
    01:50 Puede hacerlo creando una nueva columna para combinar los retrasos de llegada y salida.
    01:56 Observe que el tipo de columna se infiere como entero.
    02:00 Seleccione la columna de retraso de salida y utilice la operación "Calcular".
    02:09 En este caso, añadirá la columna de retardo de llegada a la columna seleccionada y creará una nueva columna, denominada "TotalDelay".
    02:23 Puede colocar la nueva columna al final de la lista de columnas o junto a la columna original.
    02:31 Al aplicar la operación, la nueva columna se muestra junto a la columna de retardo de salida.
    02:38 Si cometes un error, o simplemente decides hacer un cambio, solo tienes que acceder al panel "Pasos" y eliminar ese paso.
    02:46 Esto deshará esa operación en particular.
    02:50 También puede utilizar los botones rehacer y deshacer.
    02:56 A continuación, desea centrarse en la columna "TotalDelay" para poder utilizar la operación "select" para mover la columna al principio.
    03:09 Este mandato organiza la columna "TotalDelay" como la primera de la lista, y todo lo demás viene después.
    03:21 A continuación, utilice la operación "group_by" para dividir los datos en grupos por año, mes y día.
    03:32 Por lo tanto, cuando seleccione la columna "TotalDelay", verá las columnas "Year", "Month", "DayofMonth" y "TotalDelay".
    03:44 Por último, desea encontrar la media de la columna "TotalDelay".
    03:48 Al expandir el menú "Operaciones", en la sección "Organizar", encontrará la operación "Agregar", que incluye la función "Media".
    04:08 Ahora tiene una nueva columna, denominada "AverageDelay", que representa el promedio del retardo total.
    04:17 Ahora para ejecutar el flujo de datos y guardar y crear el trabajo.
    04:24 Proporcione un nombre para el trabajo y continúe en la siguiente pantalla.
    04:28 El paso "Configurar" le permite revisar cuál será la entrada y salida de la ejecución del trabajo.
    04:36 Y seleccione el entorno utilizado para ejecutar el trabajo.
    04:41 La planificación de un trabajo es opcional, pero puede establecer una fecha y repetir el trabajo, si lo desea.
    04:51 Y puede elegir recibir notificaciones para este trabajo.
    04:56 Todo parece correcto, así que crea y ejecuta el trabajo.
    05:00 Esto podría tardar varios minutos, porque recuerde que el flujo de datos se ejecutará sobre el conjunto de datos completo.
    05:06 Mientras tanto, puede ver el estado.
    05:12 Cuando la ejecución está en competencia, puede volver a la pestaña "Activos" del proyecto.
    05:20 Y abra el flujo de Data Refinery para refinar más los datos.
    05:28 Por ejemplo, podría ordenar la columna "AverageDelay" en orden descendente.
    05:36 Ahora, edite los valores de flujo.
    05:39 En el panel "General", puede cambiar el nombre de flujo de Data Refinery .
    05:46 En el panel "Conjuntos de datos de origen", puede editar el ejemplo o el formato del conjunto de datos de origen o sustituir el origen de datos.
    05:56 Y en el panel "Conjunto de datos de destino", puede especificar una ubicación alternativa, como un origen de datos externo.
    06:06 También puede editar las propiedades para el destino, como la modalidad de escritura, el formato de archivo y cambiar el nombre de activo de conjunto de datos.
    06:21 Ahora vuelva a ejecutar el flujo de datos; pero esta vez, guarde y vea los trabajos.
    06:28 Seleccione el trabajo que desea ver en la lista y ejecute el trabajo.
    06:41 Cuando finalice la ejecución, vuelva al proyecto.
    06:46 Y en la pestaña "Activos", verás los tres archivos:
    06:51 El original.
    06:54 El primer conjunto de datos refinado, que muestra el "AverageDelay" sin ordenar.
    07:02 Y el segundo conjunto de datos, que muestra la columna "AverageDelay" ordenada en orden descendente.
    07:11 Y de nuevo en la pestaña "Activos", está el flujo de Data Refinery .
    07:19 Busque más vídeos en la documentación de Cloud Pak for Data as a Service.

Probar un tutorial para refinar los datos

En esta guía de aprendizaje, realizará estas tareas:

Le llevará aproximadamente 30 minutos el completar esta guía de aprendizaje.





Sugerencias para completar esta guía de aprendizaje
Estas son algunas sugerencias para completar correctamente esta guía de aprendizaje.

Utilizar la imagen en imagen de vídeo

Sugerencia: Inicie el vídeo y, a continuación, a medida que se desplaza por el tutorial, el vídeo se desplaza al modo de imagen en imagen. Cierre la tabla de contenido de vídeo para obtener la mejor experiencia con la imagen en imagen. Puede utilizar el modo de imagen en imagen para poder seguir el vídeo mientras completa las tareas de este tutorial. Pulse las indicaciones de fecha y hora para cada tarea a seguir.

La siguiente imagen animada muestra cómo utilizar las características de imagen en imagen y tabla de contenido de vídeo:

Cómo utilizar la imagen en la imagen y los capítulos

Obtener ayuda en la comunidad

Si necesita ayuda con esta guía de aprendizaje, puede formular una pregunta o encontrar una respuesta en el foro de discusión de la comunidad deCloud Pak for Data.

Configurar las ventanas del navegador

Para obtener la experiencia óptima al completar esta guía de aprendizaje, abra Cloud Pak for Data en una ventana de navegador y mantenga abierta esta página de la guía de aprendizaje en otra ventana de navegador para conmutar fácilmente entre las dos aplicaciones. Considere la posibilidad de organizar las dos ventanas del navegador una al lado de la otra para que sea más fácil de seguir.

Guía de aprendizaje en paralelo e interfaz de usuario

Sugerencia: Si encuentra una visita guiada al completar esta guía de aprendizaje en la interfaz de usuario, pulse Quizás más tarde.



Tarea 1: Abrir un proyecto

Necesita un proyecto para almacenar los datos y el flujo de Data Refinery. Puede utilizar un proyecto existente o crear un proyecto.

  1. En el Menú de navegación Menú de navegación, elija Proyectos > Ver todos los proyectos

  2. Abre un proyecto existente. Si desea utilizar un proyecto nuevo:

    1. Pulse Nuevo proyecto.

    2. Seleccione Crear un proyecto vacío.

    3. Especifique un nombre y una descripción opcional para el proyecto.

    4. Elija una instancia de servicio de almacenamiento de objetos existente o cree una nueva.

    5. Pulse Crear.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra un proyecto nuevo vacío.

La imagen siguiente muestra un proyecto nuevo vacío.

Para obtener más información o ver un vídeo, consulte Creación de un proyecto.




Tarea 2: Abrir el conjunto de datos en Data Refinery

vídeo tutorial de vista previa Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 00:05.

Siga estos pasos para añadir un activo de datos al proyecto y crear un flujo de Data Refinery . El conjunto de datos que utilizará en esta guía de aprendizaje está disponible en el concentrador de recursos.

  1. Acceda a los Datos de línea aérea en el concentrador de recursos.

  2. Pulse Añadir al proyecto.

  3. Seleccione el proyecto en la lista y pulse Añadir.

  4. Después de añadir el conjunto de datos, pulse Ver proyecto.

    Para obtener más información sobre cómo añadir un activo de datos desde el concentrador de recursos a un proyecto, consulte Carga y acceso a datos en un cuaderno.

  5. En la pestaña Activos , pulse el activo de datos airline-data.csv para obtener una vista previa de su contenido.

  6. Pulse Preparar datos para abrir un ejemplo del archivo en Data Refineryy espere hasta que Data Refinery lea y procese un ejemplo de los datos.

  7. Cierre los paneles Información y Pasos .

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra el activo de datos de línea aérea abierto en Data Refinery.

La imagen siguiente muestra el activo de datos de línea aérea abierto en Data Refinery.




Tarea 3: Revisar los datos con Perfil y Visualizaciones

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 00:47.

El contenido de un activo se perfila automáticamente y se clasifica en función de los valores de esas columnas. Siga estos pasos para utilizar las pestañas Perfil y Visualizaciones para explorar los datos.

Sugerencia: Utilice las páginas Perfil y Visualizaciones para ver los cambios en los datos a medida que los refina.
  1. Pulse el separador Perfil para revisar la distribución de frecuencias de los datos para que pueda encontrar los valores atípicos.

    1. Desplácese por las columnas para ver las estadísticas de cada columna. Las estadísticas muestran el rango intercuartil, mínimo, máximo, mediana y desviación estándar en cada columna.

    2. Pase el cursor por encima de una barra para ver detalles adicionales.

    La imagen siguiente muestra la pestaña Perfil:
    Pestaña Perfil

  2. Pulse la pestaña Visualizaciones.

    1. Seleccione la columna UniqueCarrier para visualizarla. Los gráficos sugeridos tienen un punto azul junto a sus iconos.

    2. Pulse el gráfico Circular . Utilice las diferentes perspectivas disponibles en los gráficos para identificar patrones, conexiones y relaciones dentro de los datos.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra la pestaña Visualizaciones. Ahora está preparado para refinar los datos.

Pestaña Visualizaciones




Tarea 4: Refinar los datos

Operaciones de Data Refinery

Data Refinery utiliza dos tipos de operaciones para refinar datos, Operaciones de GUI y operaciones de codificación. Utilizará ambos tipos de operaciones en esta guía de aprendizaje.

  • Las operaciones de GUI pueden constar de varios pasos. Seleccione una operación de Nuevo paso. También está disponible un subconjunto de las operaciones de la GUI en el menú Desbordamiento de cada columna (menú de desbordamiento).

    Cuando abre un archivo en Data Refinery, la operación Convertir tipo de columna se aplica automáticamente como primer paso para convertir cualquier tipo de datos que no sea de serie a tipos de datos inferidos (por ejemplo, a Integer, Date, Boolean, etc.). Este paso se puede deshacer o editar.

  • Las operaciones de codificación son plantillas interactivas para operaciones, funciones y operadores lógicos de codificación. La mayoría de las operaciones tienen ayuda interactiva. Pulse en el nombre de la operación en el recuadro de texto de la línea de mandatos para ver las operaciones de codificación y sus opciones de sintaxis.

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 01:16.

El refinamiento de datos es una serie de pasos para crear un Flujo de refinería de datos. A medida que avance por esta tarea, consulte el panel Pasos para seguir su progreso. Puede seleccionar un paso para suprimirlo o editarlo. Si comete un error, también puede pulsar el icono Deshacer Deshacer. Siga estos pasos para refinar los datos:

  1. Vuelva a la pestaña Datos.

  2. Seleccione la columna Año. Pulse el menú Desbordamiento (Menú de desbordamiento) y elija Ordenar descendente.

  3. Pulse Pasos para ver el nuevo paso en el panel Pasos .

  4. Vamos a concentrarnos en los retrasos por compañía aérea específica. Esta guía de aprendizaje utiliza United Airlines (UA), pero puede elegir cualquier compañía aérea.

    1. Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Filtro.

    2. Elija la columna UniqueCarrier.

    3. Para Operador, seleccione Es igual a.

    4. Para Valor, escriba la serie de la línea aérea para la que desea ver información de retrasos. Por ejemplo, UA.
      Operación de filtro

    5. Haga clic en Aplicar. Desplácese a la columna UniqueCarrier para ver los resultados.

  5. Cree una nueva columna que añada los tiempos de retraso de llegada y salida juntos.

    1. Seleccione la columna DepDelay .

    2. Observe que la operación Convertir tipo de columna se ha aplicado automáticamente como primer paso para convertir los tipos de datos de Serie en todas las columnas cuyos valores son números para tipos de datos de entero.

    3. Pulse Nuevo paso y seleccione la operación de la GUI Calcular.

    4. Para Operador, seleccione Adición.

    5. Seleccione Columnay, a continuación, elija la columna ArrDelay .

    6. Seleccione Crear nueva columna para los resultados.

    7. Para Nuevo nombre de columna, escriba TotalDelay.
      Operación Calcular

    8. Puede colocar la nueva columna al final de la lista de columnas o junto a la columna original. En este caso, seleccione Siguiente a la columna original.

    9. Haga clic en Aplicar. Se añade la nueva columna, TotalDelay.

  6. Mueva la nueva columna TotalDelay al principio del conjunto de datos:

    1. En el recuadro de texto de la línea de mandatos, elija la operación seleccionar.

    2. Pulse la palabra selecty, a continuación, seleccione select (`<column>`, todo ()).

    3. Pulse `<column>`y seleccione la columna TotalDelay. Cuando haya terminado, el mandato debe tener el aspecto siguiente:

      select(`TotalDelay`, everything())
      
    4. Haga clic en Aplicar. La columna TotalDelay es ahora la primera columna.

  7. Reduzca los datos a cuatro columnas: Year, Month, DayofMonth, and TotalDelay. Utilice la operación de codificación group_by para dividir las columnas en grupos de año, mes y día.

    1. En el recuadro de texto de la línea de mandatos, elija la operación group_by.

    2. Pulse <column>y seleccione la columna Year.

    3. Antes del paréntesis de cierre, escriba: ,Month,DayofMonth. Cuando haya terminado, el mandato debe tener el aspecto siguiente:

      group_by(`Year`,Month,DayofMonth)
      
    4. Haga clic en Aplicar.

    5. Utilice la operación de codificación seleccionar para la columna TotalDelay. En el recuadro de texto de la línea de mandatos, seleccione la operación seleccionar.
      Pulse <column> y elija la columna TotalDelay. El mandato debería ser parecido a:

      select(`TotalDelay`)
      
    6. Haga clic en Aplicar. Los datos configurados ahora constan de las columnas Year, Month, DayofMonth, and TotalDelay.

      La siguiente imagen de pantalla muestra las primeras cuatro filas de los datos.
      Las primeras cuatro filas del flujo de Refinería de datos con las columnas Year, Month, DayofMonth y TotalDelay

  8. Mostrar la media de los valores de la columna TotalDelay y crear una nueva columna AverageDelay :

    1. Pulse Nuevo paso y, a continuación, seleccione la operación de la GUI Agregado.

    2. En Columna, seleccione TotalDelay.

    3. Para Operador, seleccione Media.

    4. Para Nombre de la columna agregada, escriba AverageDelay.
      Operación de agregado

    5. Haga clic en Aplicar.

      La nueva columna AverageDelay es el promedio de todos los tiempos de retardo.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra las primeras cuatro filas de los datos.

La siguiente imagen de pantalla muestra las primeras cuatro filas de los datos.




Tarea 5: Ejecutar un trabajo para el flujo de Data Refinery

vídeo tutorial de vista previa Para obtener una vista preliminar de esta tarea, vea el vídeo que empieza en 04:16.

Cuando ejecuta un trabajo para el flujo de Data Refinery, se ejecutan los pasos en todo el conjunto de datos. Seleccione el tiempo de ejecución y añada una planificación puntual o cíclica. La salida del flujo de Data Refinery se añade a los activos de datos de proyecto. Siga estos pasos para ejecutar un trabajo para crear el conjunto de datos refinado.

  1. En la barra de herramientas de Data Refinery , pulse el icono Trabajos y seleccione Guardar y crear un trabajo.
    Guardar y crear un trabajo

  2. Escriba un nombre y una descripción para el trabajo y pulse Siguiente.

  3. Seleccione un entorno de ejecución y pulse Siguiente.

  4. (Opcional) Pulse el botón de conmutación para planificar una ejecución. Especifique la fecha, la hora y si desea que el trabajo se repita y pulse Siguiente.

  5. (Opcional) Active las notificaciones para este trabajo, y pulse Siguiente.

  6. Revise los detalles y pulse Crear y ejecutar para ejecutar el trabajo inmediatamente.
    create job

  7. Cuando se cree el trabajo, pulse el enlace detalles del trabajo en la notificación para ver el trabajo en el proyecto. Como alternativa, puede ir hasta la pestaña Trabajos del proyecto y pulsar el nombre del trabajo para abrirlo.

  8. Cuando el Estado del trabajo es Completado, utilice la pista de navegación del proyecto para volver al separador Activos del proyecto.

  9. Pulse la sección Datos > Activos de datos para ver la salida del flujo de Data Refinery , airline-data_shaped.csv.

  10. Pulse la sección Flujos > Flujos de Data Refinery para ver el flujo de Data Refinery , airline-data.csv_flow.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra la pestaña Activos con el flujo de Data Refinery y el activo con forma.

La imagen siguiente muestra la pestaña Activos con el flujo de Data Refinery y el activo con forma.




Tarea 6: Crear otro activo de datos desde el flujo de Data Refinery

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 05:26.

Siga estos pasos para refinar más el conjunto de datos editando el flujo Data Refinery :

  1. Pulse airline-data.csv_flow para abrir el flujo en Data Refinery.

  2. Ordene la columna AverageDelay en orden descendente.

    1. Seleccione la columna AverageDelay .

    2. Pulse el menú Desbordamiento de la columna (Menú de desbordamiento) y, a continuación, seleccione Ordenar descendente.

  3. Pulse el icono Valores de flujo Valores de flujo.

  4. Pulse el panel Conjunto de datos de destino .

  5. Pulse Editar propiedades.

    1. En el diálogo Formatear propiedades de destino , cambie el nombre del activo de datos a airline-data_sorted_shaped.csv.
      nombre de archivo de salida cambiado

    2. Pulse Guardar para volver a los valores de flujo.

  6. Pulse Aplicar para guardar los valores.

  7. En la barra de herramientas de Data Refinery , pulse el icono Trabajos y seleccione Guardar y ver trabajos.
    Guardar y ver trabajos

  8. Seleccione el trabajo para los datos de la compañía aérea y pulse Ver.

  9. En la barra de herramientas Ventana de trabajo , pulse el icono Ejecutar trabajo .
    Ejecutar trabajos

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra los detalles del trabajo completado.

La imagen siguiente muestra los detalles del trabajo completado.




Tarea 7: Ver los activos de datos y el flujo de Data Refinery en el proyecto

vídeo tutorial de vista previa Para obtener una vista previa de esta tarea, vea el vídeo que empieza en 06:40.

Ahora siga estos pasos para ver los tres activos de datos, el original, el primer conjunto de datos refinado y el segundo conjunto de datos refinado:

  1. Cuando se haya completado el trabajo, vaya a la página del proyecto.

  2. Pulse el separador Activos.

  3. En la sección Activos de datos, verá el conjunto de datos original que ha cargado y la salida de los dos flujos de Data Refinery.

    • airline-data_sorted_shaped.csv
    • airline-data_csv_shaped
    • airline-data.csv
  4. Pulse el activo de datos línea aérea-data_csv_con forma para ver el retardo medio sin ordenar. Vuelva a la pestaña Activos .

  5. Pulse el activo de datos airline-data_sorted_shaped.csv para ver el retraso promedio clasificado en orden descendente. Vuelva a la pestaña Activos .

  6. Pulse la sección Flujos > Flujos de Data Refinery muestra el flujo de Data Refinery : airline-data.csv_flow.

Icono de punto de comprobación Compruebe el progreso

La imagen siguiente muestra la pestaña Activos con todos los activos visualizados.

La imagen siguiente muestra la pestaña Activos con todos los activos visualizados.



Próximos pasos

Ahora los datos están listos para ser utilizados. Por ejemplo, usted u otros usuarios pueden realizar cualquiera de estas tareas:

Recursos adicionales

Tema principal: Guías de aprendizaje de inicio rápido

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información