0 / 0
Volver a la versión inglesa de la documentación
Perfiles de activos de datos

Perfiles de activos de datos

Un perfil de activo incluye metadatos generados y estadísticas sobre el contenido del activo, y le ayuda a comprender qué acciones realizar para mejorar la calidad de los datos. Puede ver el perfil en la página Perfil de un activo.

Se pueden crear perfiles para activos de datos que contienen datos relacionales o estructurados.

Requisitos y restricciones

Puede ver el perfil de activos en las circunstancias siguientes.

servicio necesario

La creación de perfiles requiere el servicio IBM Knowledge Catalog .

Permisos necesarios

Los roles determinan cómo puede interactuar con los perfiles:

  • Para ver esta página, puede tener cualquier rol en un proyecto o catálogo.
  • Para crear o actualizar un perfil o para ejecutar el enriquecimiento de metadatos en un proyecto, debe tener el rol Admin o Editor en el proyecto.
  • Para crear o actualizar un perfil en un catálogo, debe tener el rol Admin en el catálogo, o debe tener el rol Editor y debe ser un propietario de activo o un miembro de activo.

Espacios de trabajo

Puede ver el perfil de activo en estos espacios de trabajo:

  • Proyectos
  • Catálogos

Tipos de activos

Estos tipos de activos tienen un perfil:

  • Activos de datos de bases de datos relacionales o no relacionales desde una conexión a los orígenes de datos, excepto Cloudant

  • Activos de datos de conjuntos de datos particionados, donde un conjunto de datos particionados consta de varios archivos y está representado por una única carpeta cargada desde el sistema de archivos local o desde conexiones basadas en archivos a los orígenes de datos

  • Activos de datos de archivos cargados desde el sistema de archivos local o desde conexiones basadas en archivo a los orígenes de datos, con estos formatos:

    • CSV
    • XLS, XLSM, XLSX (solo se ha perfilado la primera hoja de un libro de trabajo).
    • TSV
    • Avro
    • Parquet

    Sin embargo, los archivos de datos estructurados no se perfilan cuando los activos de datos no hacen explícitamente referencia a los mismos, como en estos casos:

    • Los archivos están dentro de un activo de carpeta conectado. Los archivos a los que se puede acceder desde un activo de carpeta conectado no se tratan como activos y no se perfilan.
    • Los archivos están dentro de un archivo de archivado, por ejemplo, un archivo .zip. El activo de datos hace referencia al archivo de archivador sin que se perfilen los archivos comprimidos.

Restricciones

Para los activos de vista de Data Virtualization y watsonx.data , a todos los usuarios se les deniega el acceso a los resultados de la creación de perfiles para evitar la exposición accidental de distribuciones de valores.

Formas de crear un perfil

Los perfiles de activos se pueden crear de distintas maneras:

  • En los catálogos gobernados, los perfiles para activos de datos individuales se crean automáticamente cuando los activos de datos se añaden al catálogo con estas excepciones:

    • Ha inhabilitado el perfilado automático para el catálogo.
    • El activo procede de una conexión que está configurada para utilizar credenciales personales.
    • El activo se ha perfilado mediante el enriquecimiento de metadatos antes de publicarse. Dichos activos ya tienen un perfil que se ha añadido al catálogo junto con el activo.
  • En proyectos y en catálogos sin obligatoriedad de reglas de protección de datos, puede crear manualmente perfiles para activos de datos individuales. También puede crear un perfil manualmente en un catálogo gobernado si el activo no se ha perfilado antes.

  • En los proyectos, puede crear y ejecutar un activo de enriquecimiento de metadatos para perfilar grandes conjuntos de activos de datos de una sola vez. Estos perfiles de activo están disponibles en el proyecto. Puede publicar los activos enriquecidos con sus perfiles en cualquier tipo de catálogo. Consulte Gestión del enriquecimiento de metadatos.

Dentro de una cuenta, los resultados de perfilado se copian con el activo de datos al publicar un activo de un proyecto en un catálogo o añadirlo de un catálogo a un proyecto. Sin embargo, si el catálogo y el proyecto pertenecen a cuentas diferentes, los perfiles no se copian porque el conjunto de clases de datos disponibles puede ser diferente.

Puede actualizar un perfil de activo individual desde la página Perfil del activo en un proyecto o un catálogo. Si actualiza manualmente un perfil de un activo de datos que se incluye en un enriquecimiento de metadatos, la información de perfil y análisis también se refleja en los resultados de enriquecimiento respectivos. Los perfiles también se actualizan cuando se publican nuevos resultados de enriquecimiento.

Al actualizar un perfil existente, puede cambiar las clases de datos para incluirlas en el perfil. Si excluye una clase de datos que se ha asignado anteriormente a una columna, el perfil actualizado muestra Clase excluida (de perfil) para la columna correspondiente a menos que se haya asignado una clase de datos diferente. También verá Clase excluida (del perfil) para cualquier columna en la que no tenga acceso a la clase de datos asignada.

¿Qué se analiza durante la creación de perfiles?

Si crea o actualiza un perfil de activo desde la página Perfil en un proyecto o un catálogo, se analizan las columnas.

Cuando un solo activo se perfila en un proyecto o un catálogo, el perfil se crea de forma predeterminada basándose en las primeras 5.000 filas de datos. Si el activo de datos tiene más de 250 columnas, el perfil se crea basándose en las primeras 1.000 filas de datos. Si el perfil se crea mediante el enriquecimiento de metadatos, el muestreo se determina mediante los valores del enriquecimiento de metadatos.

Para identificar la estructura y el contenido de los datos y clasificarlos, el análisis incluye las tareas siguientes:

  • Calcular las estadísticas sobre los datos de cada columna analizada.
  • Calcular los tipos de datos de las columnas y la distribución de los tipos de datos.
  • Calcula los formatos de datos de las columnas y la distribución de los formatos.
  • Clasificar los datos y calcular los candidatos a clase de datos para las columnas.
  • Capturar las distribuciones de frecuencia.

Información de perfil

El perfil de un activo de datos muestra información sobre cada columna del activo de datos.

La pestaña Perfil proporciona información general y una visión general de los resultados del análisis:

  • Cuándo se ha creado el perfil o se ha actualizado por última vez.

  • Cuántas columnas y filas se han analizado.

  • La clase de datos inferida para cada columna y la confianza de esa clase de datos. Las clases de datos describen el contenido de los datos de la columna: por ejemplo, ciudad, número de cuenta o número de tarjeta de crédito. Las clases de datos se pueden utilizar para enmascarar datos o para restringir el acceso a activos de datos con reglas de protección de datos. Las clases de datos aparecen para cada columna en la página Visión general del activo y en la página Perfil.

    La confianza de una clase de datos es el porcentaje de valores no nulos que coinciden con la clase de datos.

    Varias clases de datos son identificadores más genéricos que se detectan y asignan en un nivel de columna. Estas clases de datos se asignan cuando no se ha podido identificar una clase de datos más específica en un nivel de valor. Los identificadores genéricos siempre tienen una confianza del 100% e incluyen las siguientes clases de datos: código, fecha, identificador, indicador, cantidad y texto.

  • Porcentaje de datos coincidentes, no coincidentes o que faltan para cada columna.

  • La distribución de frecuencias para todos los valores identificados en una columna.

  • Estadísticas sobre los datos de cada columna como, por ejemplo, el número de valores distintos, el porcentaje de valores exclusivos, mínimo, máximo o medio y, a veces, la desviación estándar de esa columna. El número de valores distinct indica cuántos valores diferentes existen en los datos muestreados para la columna. El porcentaje de valores exclusivos indica el porcentaje de valores distintos que sólo aparecen una vez en la columna.

    En función del formato de datos de una columna, las estadísticas varían ligeramente. Por ejemplo, las estadísticas para una columna de tipo de datos entero tienen valores mínimo, máximo y medio y un valor de desviación estándar, mientras que las estadísticas para una columna de tipo de datos serie tienen valores de longitud mínima, longitud máxima y longitud media.

Hay disponible información más detallada sobre los datos de columna cuando pulsa el nombre de columna. Consulte Resultados detallados de creación de perfiles.

El perfil de activo más reciente se conserva y se muestra mientras el activo de datos existe en el catálogo o en el proyecto, incluso si los datos originales del origen de datos no están disponibles de forma temporal o permanente. Para eliminar la información de perfil, tiene estas opciones:

  • Puede suprimir manualmente el perfil en la página Perfil . Esta opción no está disponible si el activo está sujeto a alguna regla de protección de datos.
  • Puede suprimir manualmente el activo de datos del proyecto o del catálogo.
  • Si el activo se ha añadido a través de la importación de metadatos, puede volver a ejecutar la importación de metadatos con el conjunto de opciones Suprimir al volver a importar adecuado.

Más información

Tema padre: Tipos de activos y propiedades

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información