Para refinar los datos, hay que tomarlos de una ubicación, limpiarlos y darles forma, y luego escribir el resultado en otra ubicación. Puede limpiar y organizar datos tabulares con una herramienta de editor de flujo gráfico denominada Data Refinery.
Cuando limpia datos, arregla o elimina datos incorrectos, incompletos, con un formato incorrecto o duplicados. Cuando organiza datos, los personaliza mediante el filtrado, la ordenación, la combinación o la eliminación de columnas.
Puede crear un flujo de Data Refinery como un conjunto de operaciones ordenadas sobre datos. Data Refinery incluye una interfaz gráfica para perfilar sus datos para validarlos y más de 20 gráficos personalizables que le proporcionan conocimientos sobre sus datos.
- Servicio necesario
- watsonx.ai Studio o IBM Knowledge Catalog
- Formato de los datos
- Avro, CSV, JSON, Microsoft Excel (formatos xls y xlsx. Primera hoja solamente, excepto para conexiones y activos de datos conectados.), Parquet, SAS con la extensión "sas7bdat" (solo lectura), TSV (solo lectura) o activo de datos de texto delimitado
- Tablas en orígenes de datos relacionales
- Tamaño de datos
- Cualquiera. Data Refinery trabaja con un subconjunto de filas de ejemplo en el conjunto de datos. El tamaño de la muestra es de 1 MB o 10.000 filas, lo que ocurra primero. Sin embargo, cuando se ejecuta un trabajo para el flujo de Data Refinery, se procesa todo el conjunto de datos. Si el flujo de Data Refinery falla con un activo de datos grande, consulte las soluciones temporales en Resolución de problemas de Data Refinery.
Para obtener más información sobre cómo elegir la herramienta adecuada para su caso de datos y uso, consulte Elección de una herramienta.
- Requisitos previos
- Limitaciones del archivo de origen
- Limitaciones del archivo de destino
- Reglas de protección de datos
- Vistas previas del conjunto de datos
- Cómo refinar los datos
Requisitos previos
Para poder refinar los datos, necesita para crear un proyecto que utilice Cloud Object Storage.
Vea este vídeo para ver cómo crear un proyecto
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Si tiene datos en la nube o en fuentes de datos locales, tendrá que añadir conexiones a esas fuentes o tendrá que añadir activos de datos de cada conexión. Si desea poder guardar los datos refinados en orígenes de datos locales o en la nube, cree también conexiones con este fin. En Data Refinery, las conexiones de origen sólo se pueden utilizar para leer datos; las conexiones de destino sólo se pueden utilizar para escribir datos. Cuando cree una conexión de destino, asegúrese de utilizar las credenciales que tengan permiso de escritura o no podrá guardar la salida del flujo de Data Refinery en el destino.
Vea este vídeo para ver cómo crear una conexión y añadir datos conectados a un proyecto
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Limitaciones de archivos de origen
Archivos CSV
Asegúrese de que los archivos CSV tiene el formato correcto y se ajustan a las reglas siguientes:
- Dos comas consecutivas en una fila indican una columna vacía.
- Si una fila termina con una coma, se crea una columna adicional.
Si su archivo CVS contiene alguna carga maliciosa (fórmulas, por ejemplo) en un campo de entrada, estos elementos podrían ejecutarse.
Los caracteres de espacio en blanco se consideran como parte de los datos
Si los datos incluyen columnas que contienen caracteres de espacio en blanco (en blanco), Data Refinery considera esos caracteres de espacio en blanco como parte de los datos, aunque no los pueda ver en la cuadrícula. Es posible que algunas herramientas de base de datos rellenen series de caracteres con caracteres de espacio en blanco para que todos los datos de una columna tengan la misma longitud y este cambio afecta a los resultados de las operaciones de Data Refinery que comparan datos.
Nombres de columna
Asegúrese de que los nombres de columna se ajustan a las reglas siguientes:
- No se permiten nombres de columna duplicados. Los nombres de columna deben ser exclusivos del conjunto de datos. Los nombres de columna no distinguen entre mayúsculas y minúsculas. Un conjunto de datos que incluye un nombre de columna "Ventas" y otro nombre de columna "ventas" no funcionarán.
- Los nombres de columna no son palabras reservadas en el lenguaje de programación R.
- Los nombres de columna no son números. Una solución temporal es encerrar los nombres de columnas entre comillas dobles ("").
Los conjuntos de datos con columnas con el tipo de datos "Otros" no están soportados en los flujos de Data Refinery
Si el conjunto de datos contiene columnas con tipos de datos identificados como "Otros" en la vista previa de watsonx.ai Studio, las columnas se mostrarán como tipo de datos Cadena en Data Refinery. No obstante, si intenta utilizar los datos en un flujo de Data Refinery, el trabajo para el flujo de Data Refinery fallará. Un ejemplo de tipo de datos que se muestra como "Otros" en la vista previa es el tipo de datos DECFLOAT de Db2.
Limitaciones de archivos de destino
La limitación siguiente se aplica si guarda la salida de flujo de Data Refinery (el conjunto de datos de destino) en un archivo:
- No puede cambiar el formato de archivo si el archivo es un activo de datos existente.
Reglas de protección de datos
Data Refinery no da soporte a las reglas de protección de datos para el filtrado de filas. Los trabajos de Data Refinery pueden fallar si el activo se rige por reglas de protección de datos de filtrado de filas. Además, si añade un activo de IBM Knowledge Catalog a un proyecto regido por reglas de protección de datos de filtrado de filas, el enmascaramiento no se aplicará en Data Refinery. Para obtener información, consulte Aplicación de reglas de protección de datos.
Vistas previas de datos
Data Refinery proporciona soporte para conjuntos de datos de gran tamaño, que pueden requerir mucho tiempo y ser engorrosos de refinar. Para trabajar de forma rápida y eficiente, funciona con un subconjunto de filas en el conjunto de datos mientras se están refinando interactivamente los datos. Cuando se ejecuta un trabajo para el flujo de Data Refinery, funciona en todo el conjunto de datos.
Cómo refinar los datos
El siguiente vídeo muestra cómo refinar los datos.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Transcripción de vídeo Hora Transcripción 00:00 Este vídeo muestra cómo dar forma a los datos en bruto mediante Data Refinery. 00:05 Para empezar a refinar datos de un proyecto, vea el activo de datos y ábralo en Data Refinery. 00:14 El panel "Información" contiene el nombre para el flujo de datos y para la salida del flujo de datos, una vez que haya terminado de refinar los datos. 00:23 La pestaña "Datos" le muestra un conjunto de ejemplo de las filas y columnas del conjunto de datos. 00:29 Para mejorar el rendimiento, no verá todas las filas del shaper. 00:33 Pero tenga la seguridad de que cuando haya terminado de refinar los datos, el flujo de datos se ejecutará en el conjunto de datos completo. 00:41 La pestaña "Perfil" le muestra estadísticas de frecuencia y resumen para cada una de sus columnas. 00:49 La pestaña "Visualizaciones" proporciona visualizaciones de datos para las columnas en las que está interesado. 00:57 Los gráficos sugeridos tienen un punto azul junto a sus iconos. 01:03 Utilice las diferentes perspectivas disponibles en los gráficos para identificar patrones, conexiones y relaciones dentro de los datos. 01:12 Ahora hablaremos sobre datos. 01:17 Comience con una operación simple, como ordenar en la columna especificada-en este caso, la columna "Año". 01:27 Supongamos que desea centrarse en los retrasos sólo para una aerolínea específica para que pueda filtrar los datos para mostrar sólo las filas en las que la compañía única es "United Airlines". 01:47 Sería útil ver el retraso total. 01:50 Puede hacerlo creando una nueva columna para combinar los retrasos de llegada y salida. 01:56 Observe que el tipo de columna se infiere como entero. 02:00 Seleccione la columna de retraso de salida y utilice la operación "Calcular". 02:09 En este caso, añadirás la columna de retraso de llegada a la columna seleccionada y crearás una nueva columna, llamada "TotalDelay". 02:23 Puede colocar la nueva columna al final de la lista de columnas o junto a la columna original. 02:31 Al aplicar la operación, la nueva columna se muestra junto a la columna de retardo de salida. 02:38 Si cometes un error, o simplemente decides hacer un cambio, solo tienes que acceder al panel "Pasos" y eliminar ese paso. 02:46 Esto deshará esa operación en particular. 02:50 También puede utilizar los botones rehacer y deshacer. 02:56 A continuación, te gustaría centrarte en la columna "TotalDelay" para poder utilizar la operación "select" y mover la columna al principio. 03:09 Este comando ordena la columna "TotalDelay" " como la primera de la lista, y todo lo demás viene después. 03:21 A continuación, utilice la operación "group_by" para dividir los datos en grupos por año, mes y día. 03:32 Así, cuando seleccione la columna ' "TotalDelay" ', verá las columnas "Año", "Mes", ' "DayofMonth", ' y ' "TotalDelay". 03:44 Por último, desea hallar la media de la columna "TotalDelay". 03:48 Al expandir el menú "Operaciones", en la sección "Organizar", encontrará la operación "Agregar", que incluye la función "Media". 04:08 Ahora tienes una nueva columna, llamada "AverageDelay", que representa la media del retraso total. 04:17 Ahora para ejecutar el flujo de datos y guardar y crear el trabajo. 04:24 Proporcione un nombre para el trabajo y continúe en la siguiente pantalla. 04:28 El paso "Configurar" le permite revisar cuál será la entrada y salida de la ejecución del trabajo. 04:36 Y seleccione el entorno utilizado para ejecutar el trabajo. 04:41 La planificación de un trabajo es opcional, pero puede establecer una fecha y repetir el trabajo, si lo desea. 04:51 Y puede elegir recibir notificaciones para este trabajo. 04:56 Todo parece correcto, así que crea y ejecuta el trabajo. 05:00 Esto podría tardar varios minutos, porque recuerde que el flujo de datos se ejecutará sobre el conjunto de datos completo. 05:06 Mientras tanto, puede ver el estado. 05:12 Cuando la ejecución está en competencia, puede volver a la pestaña "Activos" del proyecto. 05:20 Y abra el flujo de Data Refinery para refinar más los datos. 05:28 Por ejemplo, puede ordenar la columna "AverageDelay" " en orden descendente. 05:36 Ahora, edite los valores de flujo. 05:39 En el panel "General", puede cambiar el nombre de flujo de Data Refinery . 05:46 En el panel "Conjuntos de datos de origen", puede editar el ejemplo o el formato del conjunto de datos de origen o sustituir el origen de datos. 05:56 Y en el panel "Conjunto de datos de destino", puede especificar una ubicación alternativa, como un origen de datos externo. 06:06 También puede editar las propiedades para el destino, como la modalidad de escritura, el formato de archivo y cambiar el nombre de activo de conjunto de datos. 06:21 Ahora vuelva a ejecutar el flujo de datos; pero esta vez, guarde y vea los trabajos. 06:28 Seleccione el trabajo que desea ver en la lista y ejecute el trabajo. 06:41 Cuando finalice la ejecución, vuelva al proyecto. 06:46 Y en la pestaña "Activos", verás los tres archivos: 06:51 El original. 06:54 El primer conjunto de datos refinados, mostrando el "AverageDelay" " sin clasificar. 07:02 Y el segundo conjunto de datos, que muestra la columna "AverageDelay" " ordenada de forma descendente. 07:11 Y de nuevo en la pestaña "Activos", está el flujo de Data Refinery . 07:19 Busque más vídeos en la documentación de Cloud Pak for Data as a Service.
1. Acceda a Data Refinery desde un proyecto. Pulse Nuevo activo > Preparar y visualizar datos. A continuación, seleccione los datos con los que desea trabajar. Alternativamente, en la pestaña Activos de un proyecto, haga clic en un activo de datos para previsualizarlo y, a continuación, haga clic en Preparar datos.
2. Utilice los pasos para aplicar operaciones que limpien, den forma y enriquezcan los datos. Examine las categorías de operación o busque una operación específica y deje que la interfaz de usuario le guíe. Puede introducir código R en la línea de mandatos y dejar que las funciones de autocompletar le ayuden a obtener la sintaxis correcta. A medida que aplica las operaciones a un conjunto de datos, Data Refinery mantiene un seguimiento de las operaciones y crea un flujo de Data Refinery. Para cada operación que aplique, Data Refinery añade un paso.
Ficha "
"
Si los datos contienen tipos de datos que no son de serie, la operación de la GUI de Convertir tipo de columna se aplica automáticamente como el primer paso del flujo de Data Refinery al abrir un archivo en Data Refinery. Los tipos de datos se convierten automáticamente a los tipos de datos inferidos como, por ejemplo, Integer, Date o Boolean. Este paso se puede deshacer o editar.
3. Pulse la pestaña Perfil para validar los datos en todo el proceso de refinamiento de datos.
Ficha perfil "
"
4. Pulse la pestaña Visualizaciones para visualizar los datos en gráficos. Descubra patrones, tendencias y correlaciones en los datos.
Ficha Visualizaciones '
'
5. Limite el conjunto de datos de ejemplo para que se adapte a sus necesidades.
6. Pulse Guardar y crear un trabajo o Guardar y ver trabajos en la barra de herramientas para ejecutar el flujo Data Refinery en todo el conjunto de datos. Seleccione el tiempo de ejecución y añada una planificación puntual o cíclica. Para obtener información sobre los trabajos, consulte Creación de trabajos en Data Refinery.
Cuando se ejecuta un trabajo para el flujo de Data Refinery, se procesa todo el conjunto de datos. Por lo tanto, la tarea podría crear un gran conjunto de datos de salida (destino) en función de las transformaciones y de la cantidad de datos procesados en el flujo. Por defecto, el resultado del flujo de Data Refinery se guarda como un activo de datos en el proyecto.
Para ver las acciones que puede realizar a medida que refina los datos, consulte Gestión de flujos de Data Refinery.
Paso siguiente
Más información
Tema principal: Preparación de datos