Para refinar los datos, hay que tomarlos de una ubicación, limpiarlos y darles forma, y luego escribir el resultado en otra ubicación. Puede limpiar y organizar datos tabulares con una herramienta de editor de flujo gráfico denominada Data Refinery.
Cuando limpia datos, arregla o elimina datos incorrectos, incompletos, con un formato incorrecto o duplicados. Cuando organiza datos, los personaliza mediante el filtrado, la ordenación, la combinación o la eliminación de columnas.
Puede crear un flujo de Data Refinery como un conjunto de operaciones ordenadas sobre datos. Data Refinery incluye una interfaz gráfica para perfilar sus datos para validarlos y más de 20 gráficos personalizables que le proporcionan conocimientos sobre sus datos.
- Formato de los datos
- Avro, CSV, JSON, Microsoft Excel (formatos xls y xlsx. Primera hoja solamente, excepto para conexiones y activos de datos conectados.), Parquet, SAS con la extensión "sas7bdat" (solo lectura), TSV (solo lectura) o activo de datos de texto delimitado
- Tablas en orígenes de datos relacionales
- Tamaño de datos
- Cualquiera. Data Refinery trabaja con un subconjunto de filas de ejemplo en el conjunto de datos. El tamaño de la muestra es de 1 MB o 10.000 filas, lo que ocurra primero. Sin embargo, cuando se ejecuta un trabajo para el flujo de Data Refinery, se procesa todo el conjunto de datos. Si el flujo de Data Refinery falla con un activo de datos grande, consulte las soluciones temporales en Resolución de problemas de Data Refinery.
- Requisitos previos
- Limitaciones del archivo de origen
- Limitaciones del archivo de destino
- Vistas previas del conjunto de datos
- Cómo refinar los datos
Requisitos previos
Para poder refinar datos, es necesario un proyecto que utilice Cloud Object Storage. Puede utilizar el proyecto de recinto de pruebas o crear un proyecto nuevo.
Vea este vídeo para ver cómo crear un proyecto
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Si tiene datos en la nube o en fuentes de datos locales, tendrá que añadir conexiones a esas fuentes o tendrá que añadir activos de datos de cada conexión. Si desea poder guardar los datos refinados en orígenes de datos locales o en la nube, cree también conexiones con este fin. En Data Refinery, las conexiones de origen sólo se pueden utilizar para leer datos; las conexiones de destino sólo se pueden utilizar para escribir datos. Cuando cree una conexión de destino, asegúrese de utilizar las credenciales que tengan permiso de escritura o no podrá guardar la salida del flujo de Data Refinery en el destino.
Vea este vídeo para ver cómo crear una conexión y añadir datos conectados a un proyecto
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Limitaciones del archivo de origen
Archivos CSV
Asegúrese de que los archivos CSV tiene el formato correcto y se ajustan a las reglas siguientes:
- Dos comas consecutivas en una fila indican una columna vacía.
- Si una fila termina con una coma, se crea una columna adicional.
Si su archivo CVS contiene alguna carga maliciosa (fórmulas, por ejemplo) en un campo de entrada, estos elementos podrían ejecutarse.
Los caracteres de espacio en blanco se consideran como parte de los datos
Si los datos incluyen columnas que contienen caracteres de espacio en blanco (en blanco), Data Refinery considera esos caracteres de espacio en blanco como parte de los datos, aunque no los pueda ver en la cuadrícula. Es posible que algunas herramientas de base de datos rellenen series de caracteres con caracteres de espacio en blanco para que todos los datos de una columna tengan la misma longitud y este cambio afecta a los resultados de las operaciones de Data Refinery que comparan datos.
Nombres de columna
Asegúrese de que los nombres de columna se ajustan a las reglas siguientes:
- No se permiten nombres de columna duplicados. Los nombres de las columnas deben ser únicos dentro del conjunto de datos. Los nombres de columna no distinguen entre mayúsculas y minúsculas. Un conjunto de datos que incluye un nombre de columna "Ventas" y otro nombre de columna "ventas" no funcionará.
- Los nombres de columna no son palabras reservadas en el lenguaje de programación R.
- Los nombres de columna no son números. Una solución temporal es encerrar los nombres de columnas entre comillas dobles ("").
Los conjuntos de datos con columnas con el tipo de datos "Otros" no están soportados en los flujos de Data Refinery
Si el conjunto de datos contiene columnas con tipos de datos identificados como "Otros" en la vista previa de watsonx.ai Studio, las columnas se mostrarán como tipo de datos Cadena en Data Refinery. No obstante, si intenta utilizar los datos en un flujo de Data Refinery, el trabajo para el flujo de Data Refinery fallará. Un ejemplo de tipo de datos que se muestra como "Otros" en la vista previa es el tipo de datos DECFLOAT de Db2.
Limitaciones de archivos de destino
La limitación siguiente se aplica si guarda la salida de flujo de Data Refinery (el conjunto de datos de destino) en un archivo:
- No puede cambiar el formato de archivo si el archivo es un activo de datos existente.
Vistas previas de datos
Data Refinery proporciona soporte para conjuntos de datos de gran tamaño, que pueden requerir mucho tiempo y ser engorrosos de refinar. Para trabajar de forma rápida y eficiente, funciona con un subconjunto de filas en el conjunto de datos mientras se están refinando interactivamente los datos. Cuando se ejecuta un trabajo para el flujo de Data Refinery, funciona en todo el conjunto de datos.
Cómo refinar los datos
El siguiente vídeo muestra cómo refinar los datos.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
1. Acceda a Data Refinery desde un proyecto. Pulse Nuevo activo > Preparar y visualizar datos. A continuación, seleccione los datos con los que desea trabajar. Alternativamente, en la pestaña Activos de un proyecto, haga clic en un activo de datos para previsualizarlo y, a continuación, haga clic en Preparar datos.
2. Utilice los pasos para aplicar operaciones que limpien, den forma y enriquezcan los datos. Examine las categorías de operación o busque una operación específica y deje que la interfaz de usuario le guíe. Puede introducir código R en la línea de mandatos y dejar que las funciones de autocompletar le ayuden a obtener la sintaxis correcta. A medida que aplica las operaciones a un conjunto de datos, Data Refinery mantiene un seguimiento de las operaciones y crea un flujo de Data Refinery. Para cada operación que aplique, Data Refinery añade un paso.
Ficha "
"
Si los datos contienen tipos de datos que no son de serie, la operación de la GUI de Convertir tipo de columna se aplica automáticamente como el primer paso del flujo de Data Refinery al abrir un archivo en Data Refinery. Los tipos de datos se convierten automáticamente a los tipos de datos inferidos como, por ejemplo, Integer, Date o Boolean. Este paso se puede deshacer o editar.
3. Pulse la pestaña Perfil para validar los datos en todo el proceso de refinamiento de datos.
Ficha perfil "
"
4. Pulse la pestaña Visualizaciones para visualizar los datos en gráficos. Descubra patrones, tendencias y correlaciones en los datos.
Ficha Visualizaciones '
'
5. Limite el conjunto de datos de ejemplo para que se adapte a sus necesidades.
6. Pulse Guardar y crear un trabajo o Guardar y ver trabajos en la barra de herramientas para ejecutar el flujo Data Refinery en todo el conjunto de datos. Seleccione el tiempo de ejecución y añada una planificación puntual o cíclica. Para obtener información sobre los trabajos, consulte Creación de trabajos en Data Refinery.
Cuando se ejecuta un trabajo para el flujo de Data Refinery, se procesa todo el conjunto de datos. Por lo tanto, la tarea podría crear un gran conjunto de datos de salida (destino) en función de las transformaciones y de la cantidad de datos procesados en el flujo. Por defecto, el resultado del flujo de Data Refinery se guarda como un activo de datos en el proyecto.
Para ver las acciones que puede realizar a medida que refina los datos, consulte Gestión de flujos de Data Refinery.
Paso siguiente
Más información
Tema principal: Preparación de datos