Un flujo de Data Refinery es un conjunto ordenado de pasos para limpiar, dar forma y mejorar los datos. A medida que refina los datos aplicando operaciones a un conjunto de datos, crea dinámicamente un flujo de Data Refinery personalizado que puede modificar en tiempo real y guardar para su uso futuro.
Estas son las acciones que puede realizar mientras refina los datos:
Trabajar con el flujo de Data Refinery
- Guardar un flujo de Data Refinery
- Ejecutar o planificar un trabajo para el flujo de Data Refinery
- Renombrar un flujo de Data Refinery
Pasos
- Deshacer o rehacer un paso
- Editar, duplicar, insertar o suprimir un paso
- Ver los pasos de flujo de Data Refinery en una "vista de instantánea"
- Exportar los datos de flujo de Data Refinery a un archivo CSV
Trabajar con los conjuntos de datos
- Cambiar el origen de un flujo de Data Refinery
- Editar el tamaño de la muestra
- Editar las propiedades de origen
- Cambiar el destino de un flujo de Data Refinery
- Editar las propiedades de destino
- Cambiar el nombre del destino de flujo de Data Refinery
Acciones en la página del proyecto
- Volver a abrir un flujo de Data Refinery para continuar trabajando
- Duplicar un flujo de Data Refinery
- Suprimir un flujo de Data Refinery
- Promocionar un flujo de Data Refinery a un espacio
- Exportar los datos de flujo de Data Refinery con los activos del proyecto
Cómo trabajar con el flujo de Data Refinery
Guardar un flujo de Data Refinery
Guarde un Data Refinery haciendo clic en el icono Guardar Data Refinery de la barra de herramientas Data Refinery. Los flujos de Data Refinery se guardan en el proyecto en el que está trabajando. Guarde el flujo de Data Refinery para continuar refinando un conjunto de datos más tarde.
La salida predeterminada del flujo de Data Refinery se guarda como un activo de datos nombre-archivo-origen_shaped.csv. Por ejemplo, si el archivo de origen es mydata.csv
, el nombre y la salida predeterminados para el flujo de Data Refinery es mydata_csv_shaped
. Puede editar el nombre y añadir una extensión cambiando el destino de un flujo de Data Refinery.
Ejecutar o planificar un trabajo para un flujo de Data Refinery
Data Refinery da soporte a conjuntos de datos grandes, que pueden requerir mucho tiempo y ser engorrosos de refinar. Para que pueda trabajar de forma rápida y eficaz, Data Refinery trabaja en un subconjunto de filas de ejemplo en el conjunto de datos. El tamaño de la muestra es de 1 MB o 10.000 filas, lo que ocurra primero. Cuando se ejecuta un trabajo para el flujo de Data Refinery, se procesa todo el conjunto de datos. Cuando se ejecuta el trabajo, se selecciona el entorno de tiempo de ejecución y puede añadir una planificación puntual o cíclica.
En Data Refinery, en la barra de herramientas Data Refinery, haga clic en el icono Trabajos y, a continuación, seleccione Guardar y crear un trabajo o Guardar y ver trabajos.
Después de guardar un flujo de Data Refinery, también puede crear un trabajo para el mismo desde la página Proyecto. Vaya a la pestaña Activos, seleccione el flujo Data Refinery, elija Nuevo trabajo en el icono Desbordamiento .
Debe tener el rol Administrador o Editor para ver los detalles del trabajo o para editar o ejecutar el trabajo. Con el rol Visor para el proyecto, sólo puede ver los detalles del trabajo.
Para obtener más información sobre los trabajos, consulte Creación de trabajos en Data Refinery.
Renombrar un flujo de Data Refinery
En la barra de herramientas Data Refinery, abra el panel de información . O haga clic en el icono Configuración de flujo y vaya a la pestaña General.
Pasos
Deshacer o rehacer un paso
Haga clic en el icono Deshacer o en el icono Redo de la barra de herramientas.
Editar, duplicar, insertar o suprimir un paso
En el panel Pasos, haga clic en el icono Desbordamiento del paso correspondiente a la operación que desea cambiar. Seleccione la acción (Editar, Duplicar, Insertar paso antes, Insertar paso despuéso Suprimir).
Si selecciona Editar, Data Refinery entra en modalidad de edición y muestra la operación que se va a editar en la línea de mandatos o en el panel Operación. Aplique la operación editada.
Si selecciona Duplicar, el paso duplicado se inserta después del paso seleccionado.
La acción Duplicar no está disponible para las operaciones Unirse o Unión .
Data Refinery actualiza el flujo Data Refinery para reflejar los cambios y vuelve a ejecutar todas las operaciones.
Ver los pasos de flujo de Data Refinery en una "vista de instantánea"
Para ver el aspecto que tendrían los datos en cualquier momento, pulse en un paso para colocar Data Refinery en una vista de instantánea. Por ejemplo, si pulsa Origen de datos, verá el aspecto de los datos antes de empezar a refinarlos. Pulse en cualquier paso de operación para ver cómo se verán los datos después de que se aplique la operación. Para salir de la vista de instantánea, pulse Visualización del paso x de y o pulse el mismo paso que ha seleccionado para entrar en la vista de instantánea.
Exportar los datos de flujo de Data Refinery a un archivo CSV
Haga clic en el icono Exportar de la barra de herramientas para exportar los datos del paso actual de su flujo Data Refinery a un archivo CSV sin guardar ni ejecutar un trabajo de flujo Data Refinery. Utilice esta opción, por ejemplo, si desea una salida rápida de un flujo de Data Refinery que está en curso. Al exportar los datos, se crea un archivo CSV y se descarga en la carpeta Descargas del sistema (o en la ubicación de descarga especificada por el usuario) en el paso actual del flujo de Data Refinery . Si está en la vista de instantánea, la salida del archivo CSV se encuentra en el paso que ha pulsado. Si está visualizando una muestra (subconjunto) de los datos, sólo los datos de muestra estarán en la salida.
Si su archivo CSV contiene alguna carga maliciosa (fórmulas, por ejemplo) en un campo de entrada, estos elementos podrían ejecutarse.
También puede exportar un flujo Data Refinery exportando los activos del proyecto. Para obtener más información, consulte Exportación de activos del proyecto.
Cómo trabajar con los conjuntos de datos
Cambiar el origen de un flujo de Data Refinery
Cambiar el origen de un flujo de Data Refinery . Ejecute el mismo flujo de Data Refinery, pero con un conjunto de datos de origen diferente. Hay dos formas en las que puede cambiar el origen:
En el panel ' Pasos Haga clic en el icono ' Desbordamiento ' ' ' junto a ' Fuente de datos, seleccione ' Editar y, a continuación, elija un conjunto de datos de origen diferente.
En los valores de flujo: puede utilizar este método si desea cambiar más de un origen de datos en el mismo lugar. Por ejemplo, para una operación de unión o una operación de unión. En la barra de herramientas, haga clic en el icono de configuración de Flujo ' . Vaya a la pestaña Conjuntos de datos fuente y haga clic en el icono de desbordamiento ' situado junto a la fuente de datos. Seleccione Sustituir origen de datosy, a continuación, elija un conjunto de datos de origen diferente.
Para obtener los mejores resultados, el nuevo conjunto de datos debería tener un esquema que sea compatible con el conjunto de datos original (por ejemplo, los nombres de columna, el número de columnas y los tipos de datos). Si el nuevo conjunto de datos tiene un esquema diferente, las operaciones que no funcionarán con el esquema mostrarán errores. Puede editar o suprimir las operaciones, o cambiar el origen por uno que tenga un esquema más compatible.
Si selecciona una conexión para un destino, sólo podrá utilizar una conexión de la lista de Fuentes de datos compatibles con Data Refinery.
Editar el tamaño de la muestra
Cuando ejecuta el trabajo para el flujo de Data Refinery , las operaciones se realizan en el conjunto de datos completo. Sin embargo, cuando aplica las operaciones de forma interactiva en Data Refinery, en función del tamaño del conjunto de datos, solo visualiza una muestra de los datos.
Aumente el tamaño de la muestra para ver los resultados que estarán más cerca de los resultados del trabajo de flujo de Data Refinery , pero tenga en cuenta que puede tardar más tiempo en ver los resultados en Data Refinery. El máximo es un recuento de filas superiores de 10.000 filas o 1 MB, lo que ocurra primero. Disminuya el tamaño de la muestra para ver resultados más rápidos. En función del tamaño de los datos y del número y la complejidad de las operaciones, es posible que desee experimentar con el tamaño de la muestra para ver qué funciona mejor para el conjunto de datos.
En la barra de herramientas, haga clic en el icono de configuración de Flujo ' . Vaya a la pestaña Conjuntos de datos fuente y haga clic en el icono de desbordamiento ' situado junto a la fuente de datos, y seleccione Editar muestra.
Editar las propiedades de origen
Las propiedades disponibles dependen del origen de datos. Hay diferentes propiedades disponibles para los activos de datos y para los datos de diferentes tipos de conexiones. Cambie el formato de archivo sólo si el formato de archivo inferido es incorrecto. Si cambia el formato de archivo, el origen se lee con el nuevo formato, pero el archivo fuente permanece sin cambios. El cambio de las propiedades de origen de formato puede ser un proceso iterativo. Compruebe los datos después de aplicar una opción.
En la barra de herramientas, haga clic en el icono de configuración de Flujo ' . Vaya a la pestaña Conjuntos de datos fuente y haga clic en el icono de desbordamiento ' situado junto a la fuente de datos, y seleccione Editar formato.
Cambiar el destino de un flujo de Data Refinery
De forma predeterminada, el destino de Data Refinery se guarda como un activo de datos en el proyecto en el que está trabajando.
Para cambiar la ubicación de destino, haga clic en el icono de configuración de Flujo ' ' de la barra de herramientas. Vaya a la pestaña Conjunto de datos de destino , pulse Seleccionar destinoy seleccione una ubicación de destino diferente.
Si selecciona una conexión para un destino, sólo podrá utilizar una conexión de la lista de Fuentes de datos compatibles con Data Refinery. Algunas de estas conexiones sólo pueden utilizarse como fuente para un flujo de Data Refinery.
Editar las propiedades de destino
Las propiedades disponibles dependen del origen de datos. Hay diferentes propiedades disponibles para los activos de datos y para los datos de diferentes tipos de conexiones.
Para cambiar las propiedades del conjunto de datos de destino, haga clic en el icono de configuración de Flujo ' de la barra de herramientas. Vaya a la pestaña Conjunto de datos de destino y pulse Editar propiedades.
Cambiar el nombre del destino de flujo de Data Refinery
El nombre del conjunto de datos de destino se incluye en los campos que puede cambiar al editar las propiedades de destino.
De forma predeterminada, el destino de Data Refinery se guarda como un activo de datos nombre-archivo-origen_shaped.csv en el proyecto. Por ejemplo, si el origen es mydata.csv
, el nombre y salida predeterminados para el flujo de Data Refinery es el activo de datos mydata_csv_shaped
.
Se aplican diferentes propiedades y convenios de denominación a un conjunto de datos de destino desde una conexión. Por ejemplo, si el conjunto de datos está en Cloud Object Storage, el conjunto de datos se identifica en los campos Grupo y Nombre de archivo . Si el conjunto de datos está en una base de datos Db2 , el conjunto de datos se identifica en los campos Nombre de esquema y Nombre de tabla .
Para más información, consulte Opciones de conexión de destino.
Acciones en la página del proyecto
Volver a abrir un flujo de Data Refinery para continuar trabajando
Para volver a abrir un flujo de Data Refinery y continuar refinando los datos, vaya al separador Activos del proyecto. En Tipos de activo, expanda Flujos, pulse Flujo deData Refinery. Pulse el nombre del flujo de Data Refinery.
Duplicar un flujo de Data Refinery
Para crear una copia de un flujo de Data Refinery , vaya a la pestaña Activos del proyecto, expanda Flujos, pulse Flujo deData Refinery. Seleccione el flujo Data Refinery y, a continuación, seleccione Duplicar en el icono Desbordamiento ' . El flujo de Data Refinery se añade a la lista de flujos de Data Refinery como "nombre-original copy 1".
Suprimir un flujo de Data Refinery
Para suprimir un flujo de Data Refinery , vaya al separador Activos del proyecto, expanda Flujos, pulse Flujo deData Refinery. Seleccione el flujo Data Refinery y, a continuación, seleccione Eliminar en el icono Desbordamiento " .
Promocionar un flujo de Data Refinery a un espacio
Los espacios de despliegue se utilizan para gestionar un conjunto de activos relacionados en un entorno aparte de los proyectos. Utiliza un espacio para preparar datos para un trabajo de despliegue para watsonx.ai Runtime. Puede promocionar los flujos de Data Refinery de varios proyectos a un único espacio. Complete los pasos del flujo de Data Refinery antes de promoverlo porque el flujo de Data Refinery no se puede editar en un espacio.
Para promocionar un flujo de Data Refinery a un espacio, vaya a la pestaña Activos del proyecto, expanda Flujos, pulse Flujo deData Refinery. Seleccione el flujo Data Refinery . Haga clic en el icono Desbordamiento ' ' para el flujo Data Refinery y, a continuación, seleccione Promover. También se promocionará el archivo de origen para el flujo de Data Refinery y cualquier otro dato dependiente.
To create or run a job for the Data Refinery flow in a space, go the space’s Activos tab, scroll down to the Data Refinery flow, and click the Nuevo trabajo icon from the Desbordamiento icon . Si ya ha creado el trabajo, vaya a la pestaña Trabajos para editar el trabajo o ver los detalles de la ejecución del trabajo. La salida con forma del trabajo de flujo de Data Refinery estará disponible en la pestaña Activos del espacio. Debe tener el rol Administrador o Editor para ver los detalles del trabajo o para editar o ejecutar el trabajo. Con el rol Visor para el proyecto, sólo puede ver los detalles del trabajo. Puede utilizar la salida conformada como datos de entrada para un trabajo en watsonx.ai Runtime.
Cuando promociona un flujo de Data Refinery de un proyecto a un espacio y el destino del flujo de Data Refinery es un activo de datos conectado, debe promocionar manualmente el activo de datos conectado. Esta acción garantiza que los datos del activo de datos conectado se actualicen al ejecutar el trabajo de flujo de Data Refinery en el espacio. De lo contrario, una ejecución satisfactoria del trabajo de flujo de Data Refinery creará un nuevo activo de datos en el espacio.
Para obtener información sobre los espacios, consulte Espacios de despliegue.
Exportar los datos de flujo de Data Refinery con los activos del proyecto
También puede exportar un flujo Data Refinery exportando los activos del proyecto. Para obtener más información, consulte Exportación de activos del proyecto.
Tema principal: Cómo refinar datos