Perfiles de activos

El perfil de un activo de datos incluye metadatos generados y estadísticas sobre su contenido. Puede ver el perfil en la página Perfil del activo en un catálogo o en un proyecto. Todos los miembros del proyecto o del catálogo pueden ver perfiles de activos de datos.

Debe tener Watson Knowledge Catalog para ver un perfil cuando visualiza un activo de datos.

El contenido del perfil depende del tipo de datos:

En una cuenta, los resultados de la creación del perfil se copian junto con el activo de datos cuando publica un activo desde un proyecto en un catálogo o lo añade desde un catálogo a un proyecto. Sin embargo, si el catálogo y el proyecto pertenecen a diferentes cuentas, los perfiles de los activos de datos estructurados no se copian porque el conjunto de clases de datos disponibles puede ser diferente. Si publica un activo de datos estructurados en un catálogo gobernado, se crea automáticamente un nuevo perfil. Si publica un activo de datos estructurados en un catálogo no gobernado, debe crear manualmente un nuevo perfil.

Datos relacionales y estructurados

El perfil de un activo de datos que contenga datos relacionales o estructurados mostrará información sobre cada columna en el conjunto de datos. Cuando un solo activo se perfila en un proyecto o un catálogo, el perfil se crea de forma predeterminada basándose en las primeras 5.000 filas de datos. Si el activo de datos tiene más de 250 columnas, el perfil se crea basándose en las primeras 1.000 filas de datos. Si el perfil se crea mediante el enriquecimiento de metadatos, el muestreo se determina mediante los valores del enriquecimiento de metadatos. Durante la elaboración de perfiles, se analizan las columnas y la calidad de los datos.

El perfil muestra la información siguiente:

  • La puntuación de calidad global para el activo de datos y una puntuación de calidad separada para cada columna. Las puntuaciones de calidad de datos para columnas individuales del activo de datos se calculan basándose en dimensiones de calidad. La puntuación de calidad global de todo el activo de datos es la media de las puntuaciones de todas las columnas.

    No todos los Planes de Watson Knowledge Catalog proporcionan una puntuación de calidad de datos.

  • La clase de datos inferida para cada columna y la confianza de esa clase de datos. Las clases de datos describen el contenido de los datos de la columna: por ejemplo, ciudad, número de cuenta o número de tarjeta de crédito. Las clases de datos se pueden utilizar para enmascarar datos con reglas de protección de datos. Además, se pueden utilizar para restringir el acceso a los activos de datos con políticas. Las clases de datos aparecen para cada columna en la página Visión general del activo y en la página Perfil.

    La confianza de una clase de datos es el porcentaje de valores no nulos que coinciden con la clase de datos.

    Varias clases de datos son identificadores más genéricos que se detectan y asignan en un nivel de columna. Estas clases de datos se asignan cuando no se ha podido identificar una clase de datos más específica en un nivel de valor. Los identificadores genéricos siempre tienen una confianza del 100% e incluyen las siguientes clases de datos: código, fecha, identificador, indicador, cantidad y texto.

  • El porcentaje de datos que coinciden, no coinciden o faltan.

  • La distribución de frecuencias para todos los valores identificados en una columna.

  • Estadísticas sobre los datos de cada columna, como el mínimo, el máximo, la media y el número de valores únicos en esa columna. En función del tipo de datos de una columna, las estadísticas de cada columna variarán ligeramente. Por ejemplo, las estadísticas de una columna de tipo de datos de entero tienen valores mínimos, máximos y medios, mientras que las estadísticas de una columna de tipo de datos de serie tienen valores de longitud mínima, longitud máxima y longitud media. Un valor exclusivo es un valor que aparece sólo una vez en la columna.

Estos tipos de datos relacionales y estructurados se perfilan por columna:

  • Activos de datos de bases de datos relacionales de una conexión a los orígenes de datos, excepto Cloudant.
  • Activos de datos de conjuntos de datos particionados, donde un conjunto de datos particionados consta de varios archivos y está representado por una única carpeta subida desde el sistema de archivos local o desde conexiones basadas en archivo a los orígenes de datos.
  • Activos de datos de archivos cargados desde el sistema de archivos local o desde conexiones basadas en archivo a los orígenes de datos, con estos formatos:

    • CSV
    • XLSX (Sólo se perfila la primera hoja de un libro de trabajo).
    • Avro
    • Parquet

      Sin embargo, los archivos de datos estructurados no se perfilan cuando los activos de datos no hacen explícitamente referencia a los mismos, como en estos casos:

    • Los archivos están dentro de un activo de carpeta. Los archivos accesibles desde un activo de carpeta no se tratan como activos y por lo tanto no se perfilan.
    • Los archivos están dentro de un archivo de archivador. El activo de datos hace referencia al archivo de archivador sin que se perfilen los archivos comprimidos.

En catálogos con la aplicación de políticas, los perfiles para los activos de datos estructurados se crean automáticamente cuando los activos de datos se añaden al catálogo, a menos que los activos de datos se publiquen desde un enriquecimiento de metadatos. Dichos activos ya tienen un perfil que se ha añadido al catálogo junto con el activo.

En los proyectos y en los catálogos sin la aplicación de reglas de protección de datos, puede crear perfiles para activos de datos estructurados individuales manualmente.

Para crear perfiles de grandes conjuntos de activos de datos de una sola vez, cree y ejecute un activo de enriquecimiento de metadatos. Consulte Gestión del enriquecimiento de metadatos.

Datos no estructurados

{: #unstructured}El perfil de un activo de datos que contiene un documento con datos no estructurados muestra información que permite una evaluación de alto nivel del contenido del documento en cuanto al riesgo: clases de datos asignadas, estadísticas de valores y metadatos como el idioma, el tamaño del archivo o el número de palabras.

Para la creación de perfiles de los activos de datos no estructurados, se extrae el texto sin formato del documento y se analizan los primeros 5 MB del texto extraído. Durante la creación de perfiles, se aplican varios patrones al contenido del documento extraído para identificar determinados tipos de información. Para detectar esta información, se tiene en cuenta la estructura de la información, el contexto cercano, todo el contenido extraído y el idioma en el que está escrito el documento. A continuación, los resultados se correlacionan con clases de datos predefinidas. Por ejemplo, si se detectan números de cuentas bancarias, se asigna al documento la clase de datos IBAN. O, si el documento contiene nombres de ciudades, se asigna la clase de datos ciudad.

Sin embargo, siempre hay que tener en cuenta que no se puede esperar que cualquier lógica de detección que se aplique a los datos no estructurados sea 100 % precisa, lo que podría dar lugar a clasificaciones erróneas.

Las clases de datos asignadas no pueden utilizarse para bloquear el acceso o enmascarar los datos en activos de datos no estructurados con políticas.

Se pueden crear perfiles de documentos con un tamaño de hasta 100 MB. No se crean perfiles de documentos de mayor tamaño.

Se puede crear el perfil de los siguientes tipos de documentos:

  • Documentos de Microsoft Word con estos tipos mime:
    • application/msword
    • application/vnd.openxmlformats-officedocument.wordprocessingml.document
  • Documentos PDF con el tipo mime application/pdf
  • Documentos de texto sin formato con el tipo mime text/plain
  • Documentos HTML con el tipo mime text/html

Los perfiles de los activos de datos no estructurados se crean siempre automáticamente. Sin embargo, los activos de datos deben cargarse directamente en el proyecto o catálogo. No se crean perfiles de documentos no estructurados que se añaden como activos.

Más información

Tema principal: Búsqueda y visualización de un activo en un catálogo