0 / 0
Volver a la versión inglesa de la documentación
Ordenación de datos
Última actualización: 13 dic 2024
Ordenación de datos

La ordenación de datos es el proceso de añadir activos de datos a un proyecto o un catálogo, enriqueciéndolos mediante la asignación de clasificaciones, clases de datos y términos empresariales, y analizando y mejorando la calidad de los datos.

Antes de poder comenzar a seleccionar datos, debe haber configurado IBM Knowledge Catalog para que tenga un marco de gobernanza y al menos un catálogo para compartir los activos seleccionados (consulte Planificación para implementar la gobernanza de datos).

La ordenación puede ser un proceso principalmente manual en el que se ordenan los activos de datos de uno en uno. Ordenación avanzada es un proceso más automatizado en el que muchas de las tareas de curación se completan automáticamente para varios activos de datos simultáneamente.

Requisitos y restricciones

Para la ordenación de datos, existen los siguientes requisitos y restricciones.

Herramientas de ordenación de datos

Trabaja con estas herramientas:

servicio necesario

La curación de datos requiere IBM Knowledge Catalog, IBM Knowledge Catalog Standard o IBM Knowledge Catalog Premium. El análisis avanzado en el contexto del enriquecimiento de metadatos (perfilado avanzado y análisis en profundidad de claves y relaciones) también requiere el servicio DataStage.

Formato de datos

Se da soporte a los siguientes formatos de datos:

  • Tablas de fuentes de datos relacionales y no relacionales, Amazon S3 Mesas del lago Delta
  • Metadata import: cualquier formato de conexiones basadas en archivos a los orígenes de datos
  • Enriquecimiento de metadatos: Tabular: CSV, TSV, Avro, Parquet, Microsoft Excel

Para obtener información sobre los conectores soportados, consulte Orígenes de datos soportados para la ordenación y la calidad de datos.

Tamaño de los datos

La ordenación de datos funciona con datos de cualquier tamaño.

Permisos necesarios

Los roles determinan qué tareas de ordenación puede realizar:

  • Debe tener el rol Encargado de datos de CloudPak o un rol personalizado con al menos el mismo conjunto de acciones. Consulte Roles predefinidos.
  • Para trabajar con los activos asociados a las herramientas de ordenación, también debe tener roles específicos en proyectos y catálogos. Para conocer los requisitos exactos, consulte las herramientas individuales.

Espacios de trabajo

Puede realizar tareas de ordenación en estos espacios de trabajo:

  • Proyectos
  • Catálogos

En función de las tareas de ordenación que desea realizar, debe trabajar en el activo de datos en un proyecto, un catálogo o ambos antes de que los datos estén listos para ser utilizados por otros usuarios.

Un proyecto es un espacio de trabajo colaborativo donde suele preparar y analizar datos antes de publicarlos en un catálogo para que los datos estén disponibles para otros usuarios de su organización. También puede añadir datos a un catálogo directamente si puede compartirlos sin más preparación. Determinados tipos de datos sólo se pueden añadir a catálogos.

Tareas de ordenación

Estas tareas de ordenación le permiten desarrollar valiosos activos de datos:

  • Añadir activos de datos a un proyecto o a un catálogo:

    • Añada activos desde una conexión a un origen de datos, manualmente uno por uno o varios activos de datos automáticamente a través de importación de metadatos. Deje los datos donde están en la nube o en local, y simplemente añada metadatos de activo y la información de conexión para acceder a los datos dentro de un proyecto o un catálogo.
    • Cargar archivos individuales en el almacenamiento que está asociado al proyecto o catálogo.
    • Añadir activos de forma manual a un proyecto desde un catálogo y trabajar con ellos.
  • Analizar y enriquecer sus datos:

    • Cree perfiles de activos de datos individuales para obtener estadísticas básicas sobre el contenido del activo y para asignar clases de datos, dentro de un proyecto o un catálogo. Consulte Creación de perfiles de activos de de datos.

    • Crear y ejecutar un enriquecimiento de metadatos en un proyecto. Consulte Enriquecimiento de activos de datos.

      • Crear perfiles de varios activos de datos en una sola ejecución para asignar automáticamente clases de datos e identificar tipos de datos y formatos de columnas.
      • Ejecute el análisis de calidad en varios conjuntos de datos en una sola ejecución para buscar problemas comunes de calidad de datos como valores perdidos o violaciones de clase de datos.
      • Asignar automáticamente términos de negocio a activos y generar sugerencias de términos basadas en la clasificación de datos o algoritmos de aprendizaje automático.
    • Revise los resultados del enriquecimiento. Dispone de una vista global de las puntuaciones de calidad para los activos de datos en el activo de enriquecimiento de metadatos del proyecto. Puede ver los resultados detallados para cada activo o columna de datos pulsando la puntuación de calidad. De forma alternativa, puede acceder a la información de la pestaña Calidad de datos de un activo, dentro de un proyecto o un catálogo.

    • Vuelva a ejecutar la importación y los trabajos de enriquecimiento a intervalos para descubrir y evaluar los cambios en los activos de datos. Puede hacerlo manualmente o puede configurar planificaciones para la importación y el enriquecimiento.

  • Evalúe la calidad de los datos ejecutando reglas de calidad de datos.

  • Refine los datos para mejorar su calidad y utilidad en un proyecto.

  • Publicación de activos de un proyecto en un catálogo.

  • Calificar y revisar los activos de datos de un catálogo.

  • Crear etiquetas y añadirlas a los activos de datos de un catálogo.

  • Añadir clasificaciones y términos empresariales a activos de datos individuales dentro de un catálogo.

Tareas de ordenación
Tarea ¿Dónde puede hacerlo manualmente? ¿Dónde puede hacerlo automáticamente?
Crear activos Catálogos
de proyectos
Catálogos
de proyectos
Asignar clases de datos Catálogos
de proyectos
Catálogos
de proyectos
Asignar clasificaciones Catálogos
Asignar términos empresariales Catálogos
de proyectos
Proyectos
Analizar calidad de datos
(enriquecimiento de metadatos)
Proyectos Proyectos
Evaluar la calidad de los datos (reglas) Proyectos Proyectos

Flujo de ejemplo: ordenación avanzada

Un flujo de ordenación puede tener estas tareas:

  1. En un proyecto, cree y ejecute una importación de metadatos con el objetivo Descubrir para realizar una importación masiva de metadatos desde una conexión al proyecto. También puede configurar la importación de metadatos para que se ejecute una sola vez o una planificación repetitiva.

  2. En el mismo proyecto, cree y ejecute un enriquecimiento de metadatos para completar estas tareas para el conjunto de activos de datos importados en una sola ejecución:

    • Crear perfiles de los activos de datos.
    • Ejecutar análisis de calidad sobre los activos de datos.
    • Asigne automáticamente términos empresariales a activos importados y genere sugerencias de términos.

    También puede configurar una planificación única o repetitiva para el enriquecimiento de metadatos. Puede alinear la planificación de enriquecimiento con la planificación configurada para la importación de metadatos.

  3. Revise los resultados de enriquecimiento para los activos de datos y sus columnas.

  4. Publicar activos de datos enriquecidos en el catálogo.

Puede realizar la mayoría de las tareas de ordenación con las API en lugar de la interfaz de usuario. Los enlaces a IBM Knowledge Catalog API se enumeran para cada tarea aplicable.

Más información

Tema principal: Preparación de datos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información