Gestión de los flujos de Data Refinery

Un flujo de Data Refinery es un conjunto ordenado de pasos para limpiar, dar forma y mejorar los datos. A medida que refina los datos mediante la aplicación de operaciones a un conjunto de datos, crea dinámicamente un flujo de Data Refinery personalizado que puede modificar en tiempo real y guardar para su uso futuro.

Guardar un flujo de Data Refinery

Guarde un flujo de Data Refinery pulsando el icono Guardar flujo de Data Refinery Icono Guardar en la barra de herramientas de Data Refinery. Los flujos de Data Refinery se guardan en el proyecto en el que está trabajando. Guarde el flujo de Data Refinery para continuar refinando un conjunto de datos más tarde.

La salida predeterminada del flujo de Data Refinery se guarda como un archivo de activo de datos nombre-archivo-origen_shared.csv. Por ejemplo, si el archivo de origen es mydata.csv, el nombre y la salida predeterminados para el flujo de Data Refinery es mydata_csv_shaped. Puede editar el nombre y añadir una extensión cambiando el destino de un flujo de Data Refinery.

Ejecutar o planificar un trabajo para un flujo de Data Refinery

{: #jobs}Data Refinery da soporte a conjuntos de datos grandes, que pueden requerir mucho tiempo y ser engorrosos de refinar. Para que pueda trabajar de forma rápida y eficaz, Data Refinery trabaja en un subconjunto de filas de ejemplo en el conjunto de datos. El tamaño de la muestra es de 1 MB o 10.000 filas, lo que ocurra primero. Cuando se ejecuta un trabajo para el flujo de Data Refinery, se procesa todo el conjunto de datos. Cuando se ejecuta el trabajo, se selecciona el entorno de tiempo de ejecución y puede añadir una planificación puntual o cíclica.

En Data Refinery, en la barra de herramientas de Data Refinery, pulse el icono Trabajos el icono ejecutar o planificar un trabajo y, a continuación, seleccione Guardar y crear un trabajo o Guardar y ver trabajos.

Después de guardar un flujo de Data Refinery, también puede crear un trabajo para el mismo desde la página Proyecto. Vaya a la pestaña Activos, seleccione el flujo de Data Refinery, elija Crear trabajo en el menú de desbordamiento (Menú de desbordamiento).

Debe tener el rol Administrador o Editor para ver los detalles del trabajo o para editar o ejecutar el trabajo. Con el rol Visor para el proyecto, sólo puede ver los detalles del trabajo.

Para obtener más información sobre los trabajos, consulte Trabajos en un proyecto.

Volver a abrir un flujo de Data Refinery para continuar trabajando

{: #reopen} Para volver a abrir un flujo de Data Refinery y continuar refinando los datos, vaya a la pestaña Activos del proyecto. Pulse el nombre del flujo de Data Refinery.

Cambiar el origen de un flujo de Data Refinery

{: #change}Cambie el origen de un flujo de Data Refinery. Ejecute el mismo flujo de Data Refinery, pero con un conjunto de datos de origen diferente. En el panel Pasos de Data Refinery, pulse el menú de desbordamiento (Menú de desbordamiento) situado junto a Origen de datos, seleccione Editar y elija un conjunto de datos de origen diferente.
Editar origen

Para obtener los mejores resultados, el nuevo conjunto de datos debería tener un esquema que sea compatible con el conjunto de datos original (por ejemplo, los nombres de columna, el número de columnas y los tipos de datos). Si el nuevo conjunto de datos tiene un esquema diferente, las operaciones que no funcionen con el esquema mostrarán errores. Puede editar o suprimir las operaciones, o cambiar el origen por uno que tenga un esquema más compatible.

Cambiar el destino de un flujo de Data Refinery

  1. En Data Refinery, abra el panel de información icono de información y pulse la pestaña Detalles.
  2. Pulse el botón Editar.
  3. En el panel SALIDA DE FLUJO DE DATA REFINERY, pulse el icono Editar para cambiar cualquiera de las siguientes propiedades:
  • Ubicación de destino. (El conjunto de datos de destino debe ser un conjunto de datos distinto del conjunto de datos de origen).
  • Nombre y descripción del conjunto de datos
  • Solo destinos de base de datos relacional: Elija si se deben sobrescribir los datos en el conjunto de datos existente. (Si el conjunto de datos de destino no está en una base de datos relacional, los datos de destino siempre se sobrescriben).
  • Formato de archivo
  • Información de cabeceras de columna
  • Codificación (UTF-8 o SJIS)

Promocionar un flujo de Data Refinery a un espacio

Los espacios de despliegue se utilizan para gestionar un conjunto de activos relacionados en un entorno aparte de los proyectos. Utilice un espacio para preparar datos para un trabajo de despliegue para Watson Machine Learning. Puede promocionar los flujos de Data Refinery de varios proyectos a un único espacio. Complete los pasos del flujo de Data Refinery antes de promoverlo porque el flujo de Data Refinery no se puede editar en un espacio.

Para promocionar un flujo de Data Refinery a un espacio, vaya a la pestaña Activos del proyecto, pulse el menú de desbordamiento (Menú de desbordamiento) para el flujo de Data Refinery y, a continuación, seleccione Promover. También se promocionará el archivo de origen para el flujo de Data Refinery y cualquier otro dato dependiente.

Para crear o ejecutar un trabajo para el flujo de Data Refinery en un espacio, vaya a la pestaña Activos del espacio, desplácese hacia abajo hasta el flujo de Data Refinery y seleccione Crear trabajo (icono de ejecutar o planificar un trabajo) en el menú de desbordamiento (Menú de desbordamiento). Si ya ha creado el trabajo, vaya a la pestaña Trabajos para editar el trabajo o ver los detalles de la ejecución del trabajo. La salida con forma del trabajo de flujo de Data Refinery estará disponible en la pestaña Activos del espacio. Debe tener el rol Administrador o Editor para ver los detalles del trabajo o para editar o ejecutar el trabajo. Con el rol Visor para el proyecto, sólo puede ver los detalles del trabajo. Puede utilizar la salida conformada como datos de entrada para un trabajo en Watson Machine Learning.

Restricción: Promocionar manualmente el activo de datos conectado de destino: Cuando promociona un flujo de Data Refinery de un proyecto a un espacio y el destino del flujo de Data Refinery es un activo de datos conectado, debe promocionar manualmente el activo de datos conectado. Esta acción garantiza que los datos del activo de datos conectado se actualicen al ejecutar el trabajo de flujo de Data Refinery en el espacio. De lo contrario, una ejecución satisfactoria del trabajo de flujo de Data Refinery creará un nuevo activo de datos en el espacio.

Para obtener información sobre los espacios, consulte Espacios de despliegue.

Renombrar un flujo de Data Refinery

  1. En Data Refinery, abra el panel de información icono de información y pulse la pestaña Detalles.
  2. Pulse el icono Editar situado junto al nombre de Data Refinery.
  3. Pulse Guardar icono de información.

Duplicar un flujo de Data Refinery

Para crear una copia de un flujo de Data Refinery, vaya al proyecto. Pulse la pestaña Activos. Seleccione el flujo de Data Refinery y, a continuación, seleccione Duplicar en el menú de desbordamiento (Menú de desbordamiento). El flujo de Data Refinery se añade a la lista de flujos de Data Refinery como "nombre-original copy 1".

Suprimir un flujo de Data Refinery

{: #remove} Para suprimir un flujo de Data Refinery, vaya al proyecto. Pulse el separador Activos. Seleccione el flujo de Data Refinery y, a continuación, seleccione Suprimir en el menú de desbordamiento (Menú de desbordamiento).

Tema principal: Cómo refinar datos