Gestión de los flujos de Data Refinery | IBM Cloud Pak for Data as a Service

Traducción no actualizada

La traducción de esta página no representa la última versión. Para obtener las últimas actualizaciones, consulte la versión inglesa de la documentación.

Volver a la versión inglesa de la documentación

Gestión de los flujos de Data Refinery

Un flujo de Data Refinery es un conjunto ordenado de pasos para limpiar, dar forma y mejorar los datos. A medida que refina los datos aplicando operaciones a un conjunto de datos, crea dinámicamente un flujo de Data Refinery personalizado que puede modificar en tiempo real y guardar para su uso futuro.

Estas son las acciones que puede realizar mientras refina los datos:

Trabajar con el flujo de Data Refinery

Guardar un flujo de Data Refinery
Ejecutar o planificar un trabajo para el flujo de Data Refinery
Renombrar un flujo de Data Refinery

Pasos

Deshacer o rehacer un paso
Editar, duplicar, insertar o suprimir un paso
Ver los pasos de flujo de Data Refinery en una "vista de instantánea"
Exportar los datos de flujo de Data Refinery a un archivo CSV

Trabajar con los conjuntos de datos

Cambiar el origen de un flujo de Data Refinery
Editar el tamaño de la muestra
Editar las propiedades de origen
Cambiar el destino de un flujo de Data Refinery
Editar las propiedades de destino
Cambiar el nombre del destino de flujo de Data Refinery

Acciones en la página del proyecto

Volver a abrir un flujo de Data Refinery para continuar trabajando
Duplicar un flujo de Data Refinery
Suprimir un flujo de Data Refinery
Promocionar un flujo de Data Refinery a un espacio

Cómo trabajar con el flujo de Data Refinery

Guardar un flujo de Data Refinery

Guarde un flujo de Data Refinery pulsando el icono de flujo Guardar Data Refinery Icono Guardar en la barra de herramientas de Data Refinery . Los flujos de Data Refinery se guardan en el proyecto en el que está trabajando. Guarde el flujo de Data Refinery para continuar refinando un conjunto de datos más tarde.

La salida predeterminada del flujo de Data Refinery se guarda como un activo de datos nombre-archivo-origen_shaped.csv. Por ejemplo, si el archivo de origen es mydata.csv, el nombre y la salida predeterminados para el flujo de Data Refinery es mydata_csv_shaped. Puede editar el nombre y añadir una extensión cambiando el destino de un flujo de Data Refinery.

Ejecutar o planificar un trabajo para un flujo de Data Refinery

Data Refinery da soporte a conjuntos de datos grandes, que pueden requerir mucho tiempo y ser engorrosos de refinar. Para que pueda trabajar de forma rápida y eficaz, Data Refinery trabaja en un subconjunto de filas de ejemplo en el conjunto de datos. El tamaño de la muestra es de 1 MB o 10.000 filas, lo que ocurra primero. Cuando se ejecuta un trabajo para el flujo de Data Refinery, se procesa todo el conjunto de datos. Cuando se ejecuta el trabajo, se selecciona el entorno de tiempo de ejecución y puede añadir una planificación puntual o cíclica.

En Data Refinery, en la barra de herramientas de Data Refinery pulse el icono Trabajos la ejecución o la planificación de un icono de trabajo y, a continuación, seleccione Guardar y crear un trabajo o Guardar y visualizar trabajos.

Después de guardar un flujo de Data Refinery, también puede crear un trabajo para el mismo desde la página Proyecto. Vaya al separador Activos , seleccione el flujo Data Refinery , elija Nuevo trabajo en el menú de desbordamiento ().

Debe tener el rol Administrador o Editor para ver los detalles del trabajo o para editar o ejecutar el trabajo. Con el rol Visor para el proyecto, sólo puede ver los detalles del trabajo.

Para obtener más información sobre los trabajos, consulte Creación de trabajos en Data Refinery.

Renombrar un flujo de Data Refinery

En la barra de herramientas de Data Refinery , abra el panel Información Icono de información . O abra los valores de flujo Icono Valores y vaya a la pestaña General .

Pasos

Deshacer o rehacer un paso

Pulse el icono Deshacer () o el icono Rehacer () en la barra de herramientas.

Editar, duplicar, insertar o suprimir un paso

En el panel Pasos, pulse el menú de desbordamiento () en el paso correspondiente a la operación que desea cambiar. Seleccione la acción (Editar, Duplicar, Insertar paso antes, Insertar paso despuéso Suprimir).

Si selecciona Editar, Data Refinery entra en modalidad de edición y muestra la operación que se va a editar en la línea de mandatos o en el panel Operación. Aplique la operación editada.

Si selecciona Duplicar, el paso duplicado se inserta después del paso seleccionado.

Nota:

La acción Duplicar no está disponible para las operaciones Unirse o Unión .

Data Refinery actualiza el flujo Data Refinery para reflejar los cambios y vuelve a ejecutar todas las operaciones.

Ver los pasos de flujo de Data Refinery en una "vista de instantánea"

Para ver el aspecto que tendrían los datos en cualquier momento, pulse en un paso para colocar Data Refinery en una vista de instantánea. Por ejemplo, si pulsa Origen de datos, verá el aspecto de los datos antes de empezar a refinarlos. Pulse en cualquier paso de operación para ver cómo se verán los datos después de que se aplique la operación. Para salir de la vista de instantánea, pulse Visualización del paso x de y o pulse el mismo paso que ha seleccionado para entrar en la vista de instantánea.

Exportar los datos de flujo de Data Refinery a un archivo CSV

Pulse Exportar ( Icono Exportar ) en la barra de herramientas para exportar los datos en el paso actual del flujo de Data Refinery a un archivo CSV sin guardar ni ejecutar un trabajo de flujo de Data Refinery . Utilice esta opción, por ejemplo, si desea una salida rápida de un flujo de Data Refinery que está en curso. Al exportar los datos, se crea un archivo CSV y se descarga en la carpeta Descargas del sistema (o en la ubicación de descarga especificada por el usuario) en el paso actual del flujo de Data Refinery . Si está en la vista de instantánea, la salida del archivo CSV se encuentra en el paso que ha pulsado. Si está visualizando una muestra (subconjunto) de los datos, sólo los datos de muestra estarán en la salida.

Cómo trabajar con los conjuntos de datos

Cambiar el origen de un flujo de Data Refinery

Cambiar el origen de un flujo de Data Refinery . Ejecute el mismo flujo de Data Refinery, pero con un conjunto de datos de origen diferente. Hay dos formas en las que puede cambiar el origen:

En el panel Pasos : pulse el menú de desbordamiento () junto a Origen de datos, seleccione Editary, a continuación, elija un conjunto de datos de origen diferente.
En los valores de flujo: puede utilizar este método si desea cambiar más de un origen de datos en el mismo lugar. Por ejemplo, para una operación de unión o una operación de unión. En la barra de herramientas, abra los valores de flujo . Vaya a la pestaña Conjuntos de datos de origen y pulse el menú de desbordamiento () junto al origen de datos. Seleccione Sustituir origen de datosy, a continuación, elija un conjunto de datos de origen diferente.

Para obtener los mejores resultados, el nuevo conjunto de datos debería tener un esquema que sea compatible con el conjunto de datos original (por ejemplo, los nombres de columna, el número de columnas y los tipos de datos). Si el nuevo conjunto de datos tiene un esquema diferente, las operaciones que no funcionarán con el esquema mostrarán errores. Puede editar o suprimir las operaciones, o cambiar el origen por uno que tenga un esquema más compatible.

Editar el tamaño de la muestra

Cuando ejecuta el trabajo para el flujo de Data Refinery , las operaciones se realizan en el conjunto de datos completo. Sin embargo, cuando aplica las operaciones de forma interactiva en Data Refinery, en función del tamaño del conjunto de datos, solo visualiza una muestra de los datos.

Aumente el tamaño de la muestra para ver los resultados que estarán más cerca de los resultados del trabajo de flujo de Data Refinery , pero tenga en cuenta que puede tardar más tiempo en ver los resultados en Data Refinery. El máximo es un recuento de filas superiores de 10.000 filas o 1 MB, lo que ocurra primero. Disminuya el tamaño de la muestra para ver resultados más rápidos. En función del tamaño de los datos y del número y la complejidad de las operaciones, es posible que desee experimentar con el tamaño de la muestra para ver qué funciona mejor para el conjunto de datos.

En la barra de herramientas, abra los valores de flujo Icono Valores . Vaya a la pestaña Conjuntos de datos de origen y pulse el menú de desbordamiento () junto al origen de datos y seleccione Editar ejemplo.

Editar las propiedades de origen

Las propiedades disponibles dependen del origen de datos. Hay diferentes propiedades disponibles para los activos de datos y para los datos de diferentes tipos de conexiones. Cambie el formato de archivo sólo si el formato de archivo inferido es incorrecto. Si cambia el formato de archivo, el origen se lee con el nuevo formato, pero el archivo fuente permanece sin cambios. El cambio de las propiedades de origen de formato puede ser un proceso iterativo. Inspeccione los datos después de aplicar una opción.

Importante: Tenga cuidado si edita las propiedades de origen. Las selecciones incorrectas pueden producir resultados inesperados cuando los datos se leen o deterioran el trabajo de flujo de Data Refinery . Inspeccione detenidamente los resultados del flujo de Data Refinery .

Cambiar el destino de un flujo de Data Refinery

De forma predeterminada, el destino de Data Refinery se guarda como un activo de datos en el proyecto en el que está trabajando.

Para cambiar la ubicación de destino, abra Valores de flujo Icono Valores en la barra de herramientas. Vaya a la pestaña Conjunto de datos de destino , pulse Seleccionar destinoy seleccione una ubicación de destino diferente.

Editar las propiedades de destino

Las propiedades disponibles dependen del origen de datos. Hay diferentes propiedades disponibles para los activos de datos y para los datos de diferentes tipos de conexiones.

Para cambiar las propiedades del conjunto de datos de destino, abra los valores de flujo Icono Valores en la barra de herramientas. Vaya a la pestaña Conjunto de datos de destino y pulse Editar propiedades.

Cambiar el nombre del destino de flujo de Data Refinery

El nombre del conjunto de datos de destino se incluye en los campos que puede cambiar al editar las propiedades de destino.

De forma predeterminada, el destino de Data Refinery se guarda como un activo de datos nombre-archivo-origen_shaped.csv en el proyecto. Por ejemplo, si el origen es mydata.csv, el nombre y salida predeterminados para el flujo de Data Refinery es el activo de datos mydata_csv_shaped.

Se aplican diferentes propiedades y convenios de denominación a un conjunto de datos de destino desde una conexión. Por ejemplo, si el conjunto de datos está en Cloud Object Storage, el conjunto de datos se identifica en los campos Grupo y Nombre de archivo . Si el conjunto de datos está en una base de datos Db2 , el conjunto de datos se identifica en los campos Nombre de esquema y Nombre de tabla .

Importante: Tenga cuidado si edita las propiedades de destino. Las selecciones incorrectas pueden producir resultados inesperados o afectar negativamente al trabajo de flujo de Data Refinery . Inspeccione detenidamente los resultados del flujo de Data Refinery .

Acciones en la página del proyecto

Volver a abrir un flujo de Data Refinery para continuar trabajando

Para volver a abrir un flujo de Data Refinery y continuar refinando los datos, vaya al separador Activos del proyecto. En Tipos de activo, expanda Flujos, pulse Flujo deData Refinery. Pulse el nombre del flujo de Data Refinery.

Duplicar un flujo de Data Refinery

Para crear una copia de un flujo de Data Refinery , vaya a la pestaña Activos del proyecto, expanda Flujos, pulse Flujo deData Refinery. Seleccione el flujo Data Refinery y, a continuación, seleccione Duplicar en el menú de desbordamiento (). El flujo de Data Refinery se añade a la lista de flujos de Data Refinery como "nombre-original copia 1".

Suprimir un flujo de Data Refinery

Para suprimir un flujo de Data Refinery , vaya al separador Activos del proyecto, expanda Flujos, pulse Flujo deData Refinery. Seleccione el flujo Data Refinery y, a continuación, seleccione Suprimir en el menú de desbordamiento ().

Promocionar un flujo de Data Refinery a un espacio

Los espacios de despliegue se utilizan para gestionar un conjunto de activos relacionados en un entorno aparte de los proyectos. Utilice un espacio para preparar datos para un trabajo de despliegue para Watson Machine Learning. Puede promocionar los flujos de Data Refinery de varios proyectos a un único espacio. Complete los pasos del flujo de Data Refinery antes de promoverlo porque el flujo de Data Refinery no se puede editar en un espacio.

Para promocionar un flujo de Data Refinery a un espacio, vaya a la pestaña Activos del proyecto, expanda Flujos, pulse Flujo deData Refinery. Seleccione el flujo Data Refinery . Pulse el menú de desbordamiento () para el flujo Data Refinery y, a continuación, seleccione Promocionar. También se promocionará el archivo de origen para el flujo de Data Refinery y cualquier otro dato dependiente.

Para crear o ejecutar un trabajo para el flujo de Data Refinery en un espacio, vaya a la pestaña Activos del espacio, desplácese hacia abajo hasta el flujo de Data Refinery y seleccione Nuevo trabajo ( la ejecución o la planificación de un icono de trabajo ) en el menú de desbordamiento (). Si ya ha creado el trabajo, vaya a la pestaña Trabajos para editar el trabajo o ver los detalles de la ejecución del trabajo. La salida con forma del trabajo de flujo de Data Refinery estará disponible en la pestaña Activos del espacio. Debe tener el rol Administrador o Editor para ver los detalles del trabajo o para editar o ejecutar el trabajo. Con el rol Visor para el proyecto, sólo puede ver los detalles del trabajo. Puede utilizar la salida conformada como datos de entrada para un trabajo en Watson Machine Learning.

Restricción:

Cuando promociona un flujo de Data Refinery de un proyecto a un espacio y el destino del flujo de Data Refinery es un activo de datos conectado, debe promocionar manualmente el activo de datos conectado. Esta acción garantiza que los datos del activo de datos conectado se actualicen al ejecutar el trabajo de flujo de Data Refinery en el espacio. De lo contrario, una ejecución satisfactoria del trabajo de flujo de Data Refinery creará un nuevo activo de datos en el espacio.

Para obtener información sobre los espacios, consulte Espacios de despliegue.

Tema principal: Cómo refinar datos