Para identificar relaciones clave entre activos de datos o para identificar datos superpuestos o redundantes en columnas, ejecute un análisis de relaciones.
Las relaciones son conexiones entre activos de datos que contienen información relacionada. Puede crear este tipo de relaciones indicando que los valores clave de un activo de datos se corresponden con los valores clave de uno o más activos de datos. La identificación de estas conexiones le ayuda a averiguar cómo se ajustan los datos.
Un análisis de relaciones clave identifica pares de claves primarias y foráneas con una relación de uno a muchos entre dos activos de datos en una base de datos relacional. Una clave primaria es una columna o un conjunto de columnas que identifica de forma exclusiva cada registro de un activo de datos. Una clave foránea es una columna o un conjunto de columnas de un activo de datos que hace referencia a las columnas de clave primaria de otro activo de datos. Puede utilizar la información de relación para determinar cómo se pueden unir los activos de datos.
Un solapamiento es cuando el contenido está disponible desde más de un origen. El análisis de solapamiento busca estructuras idénticas o similares en activos de datos comparando valores de columna dentro de un activo de datos o entre activos de datos. Por lo tanto, el análisis de solapamiento le ayuda a determinar si los datos son exclusivos o similares y cuánto pueden solaparse los datos.
Los resultados de los análisis de relaciones son acumulativos. Cada vez que ejecuta un análisis, el análisis añade nuevas relaciones o actualiza relaciones que se identificaron en ejecuciones de análisis anteriores.
- Requisitos previos
- Ejecución de un análisis de relaciones clave
- Asignación, desasignación o eliminación de relaciones de claves
- Ejecución de un análisis de solapamiento
- Comprobación de resultados de análisis de solapamiento
- Acceso a los detalles de ejecución del trabajo
Requisitos previos
El servicio DataStage se debe desplegar para ejecutar análisis de relaciones.
Todas las operaciones que se ejecutan como parte de un enriquecimiento de metadatos requieren credenciales para la autorización segura. Normalmente, la clave de API de usuario se utiliza para ejecutar estas operaciones de larga ejecución sin interrupción. Si las credenciales no están disponibles cuando intenta ejecutar un análisis de relación de claves o un análisis de solapamiento, se le solicitará que cree una clave de API. A continuación, dicha clave de API se guarda como credenciales de tarea. Consulte Gestión de la clave de API de usuario.
Si alguna de las conexiones con los orígenes de datos está bloqueada, se le solicitará que especifique sus credenciales personales. Este paso único desbloquea de forma permanente las conexiones.
Puede ejecutar análisis de relaciones en profundidad sin crear primero perfiles de activo. El análisis de relaciones de clave profunda o solapamiento no se basa en información de perfil como, por ejemplo, la distribución de frecuencia de los valores de columna. En su lugar, los datos de columna se analizan directamente.
Ejecución de un análisis de relaciones clave
Ejecute un análisis de relaciones de claves para identificar relaciones de claves de una sola columna o relaciones de claves compuestas. El análisis determina las posibles relaciones candidatas y sugiere las mejores relaciones entre los activos de datos basándose en la confianza de cada relación potencial. Para calcular la confianza de la relación, se tiene en cuenta la siguiente información:
- El número de valores de la clave primaria presente en la clave foránea
- El número de valores huérfanos en la clave foránea
- La similitud entre los nombres de las columnas entre la clave primaria y la clave foránea
- La posición de las columnas en los activos de datos.
Las relaciones se pueden detectar entre columnas de distintos tipos de datos de la forma siguiente:
- Tipos de datos BIGINT y SMALLINT
- Tipos de datos BIGINT y DECIMAL
- Tipos de datos BIGINT y CHAR
- Tipos de datos BIGINT y VARCHAR
- Tipos de datos DECIMAL y VARCHAR
- Tipos de datos CHAR y VARCHAR
- Tipos de datos VARCHAR y LONG VARCHAR
Los pares con una confianza que excede el umbral de sugerencia definido se listan como relaciones candidatas para un activo. También puede habilitar la asignación automática de relaciones. Para obtener más información sobre los umbrales, consulte Relaciones clave .
Este tipo de análisis de relaciones comprueba si las columnas únicas de los activos de datos seleccionados son similares al nombre de columna y a los datos perfilados. Si no ejecuta un análisis en profundidad, se aplican los umbrales establecidos en la configuración de enriquecimiento predeterminada.
Si selecciona ejecutar un análisis en profundidad, los datos de columna reales se comprueban para identificar las claves primarias y foráneas. También puede elegir identificar relaciones de clave compuesta o ejecutar el análisis en una muestra de datos en lugar de todo el activo de datos. Para un análisis en profundidad, los umbrales definidos en la configuración de enriquecimiento no surten efecto. En su lugar, puede establecer umbrales para cada ejecución de análisis individual.
El análisis en profundidad tarda más en completarse que el análisis de relaciones clave predeterminado. Si también elige identificar claves compuestas, el tiempo de proceso aumenta significativamente. El análisis puede ejecutarse durante días o más. Sólo se comprueban las columnas adyacentes donde adyacentes significa directamente una junto a la otra si el tipo de datos de las columnas permite el análisis de claves o cerca una de la otra cuando se omiten las columnas intermedias porque sus tipos de datos no permiten el análisis de claves.
Para ejecutar un análisis de relaciones clave para uno o varios activos:
Abra el activo de enriquecimiento de metadatos.
En la ficha Activos , seleccione los activos según sea necesario.
Seleccione Enriquecer > Identificar relaciones en la barra de herramientas. El tipo de análisis predeterminado es Clave.
Este tipo de análisis de relaciones normalmente se ejecuta en varias columnas de los activos de datos seleccionados. De forma predeterminada, la longitud de clave compuesta se establece en 2.
El análisis de relaciones clave en profundidad comprueba los datos de columna reales y, por lo tanto, es un proceso que consume mucho tiempo. Es posible que desee ejecutar el análisis en una muestra de datos en lugar del activo de datos completo.
La configuración de enriquecimiento predeterminada para relaciones clave no tiene efecto. Se aplican diferentes configuraciones predeterminadas para sugerencias y asignaciones automáticas al análisis de relaciones en profundidad:
- El umbral de sugerencia predeterminado es del 25%.
- La asignación automática de relaciones está habilitada. El umbral de asignación predeterminado es del 90%.
Puede sobrescribir esta configuración predeterminada para cada ejecución de análisis individual.
Para ejecutar un análisis de relaciones de clave superficial en columnas únicas en los activos de datos, puede utilizar la opción de enriquecimiento Establecer relaciones .
Pulse Ejecutar.
Asignación, desasignación o eliminación de relaciones de claves
Una vez completado el análisis de relaciones clave, puede ver y gestionar las relaciones aquí:
En la pestaña Claves del panel de detalles del activo, verá un icono más si se han detectado relaciones de candidatos. Pulse el icono más, compruebe las relaciones sugeridas para este activo y asigne las más adecuadas. También puede desasignar o eliminar relaciones para este activo.
El enlace Ver relaciones clave en el área de enriquecimiento está activo. Pulse el enlace para ver una lista de todas las relaciones de claves detectadas en la pestaña Claves . Seleccione y asigne relaciones sugeridas o desasigne relaciones. También puede eliminar las relaciones sugeridas y asignadas.
Para ver sólo las relaciones con una clave primaria asignada, filtre la lista por Clave primaria.
Desde la tabla de relaciones de claves, también puede abrir una vista gráfica de las relaciones de cada clave para comprobar y gestionar las relaciones. En el menú de desbordamiento de una clave, seleccione Abrir diagramao seleccione Ver detalles y, a continuación, pulse Ver diagrama en el panel lateral.
Si desasigna una relación, su estado se restablece en Sugerido. Si elimina una relación, se eliminará por completo. Es posible que se vuelva a sugerir una relación eliminada cuando vuelva a ejecutar el análisis.
Ejecución de un análisis de solapamiento
Ejecute un análisis de solapamiento para identificar datos solapados o potencialmente redundantes en las columnas de uno o más activos de datos.
Para ejecutar un análisis de relaciones clave para uno o varios activos:
Abra el activo de enriquecimiento de metadatos.
En la ficha Activos , seleccione los activos según sea necesario.
Seleccione Enriquecer > Identificar relaciones en la barra de herramientas.
Seleccione Solapar como tipo de análisis. Opcionalmente, puede ajustar el valor de muestreo. De forma predeterminada, se analizan todos los registros de un activo de datos, lo que puede llevar mucho tiempo. Es posible que desee elegir un porcentaje más bajo de datos que se comprueban. Cuando se reduce el tamaño de la muestra, los registros que se incluyen en la muestra se seleccionan de forma aleatoria.
La configuración de enriquecimiento predeterminada no tiene efecto. Se aplican diferentes configuraciones predeterminadas para sugerencias y asignación automática al análisis de superposición:
- El umbral de sugerencia predeterminado es del 25%.
- La asignación automática de relaciones está habilitada. El umbral de asignación predeterminado es del 90%.
Puede sobrescribir esta configuración predeterminada para cada ejecución de análisis individual.
Comprobación de resultados de análisis de solapamiento
Vea los resultados del análisis para determinar cómo se relacionan los datos de columna.
Para comprobar y gestionar relaciones de solapamiento:
Pulse el enlace Ver relaciones clave en el área de enriquecimiento. En la pestaña Solapamiento , puede ver la siguiente información para cada relación detectada:
- El activo base y el activo emparejado
- El estado de la relación
- El número máximo de valores distintos
- El número total y el porcentaje de valores de columna comunes
Expanda una entrada para ver más información:
Los nombres de la columna base y la columna emparejada que muestran datos solapados
El tipo de solapamiento para la base y la columna emparejada:
- Igual
- La columna base y la columna emparejada tienen los mismos valores. Los porcentajes para ambos son 100% y 100%.
- subconjunto
- Todos los valores de esta columna están en la otra columna, pero la otra columna contiene más valores. El porcentaje de la primera columna es 100%, pero el porcentaje de la otra columna es inferior al 100%.
- Superconjunto
- Todos los valores de la otra columna están en esta columna, pero no todos los valores de esta columna están en la otra columna. El porcentaje para la otra columna es 100%, pero el porcentaje para la primera columna es menor que 100%.
- Solapar
- Algunos de los valores de las columnas tienen algún solapamiento, pero no todos los valores de ninguna de las columnas son comunes. Los porcentajes de ambos son inferiores al 100%.
El número total de valores distintos en la columna base y el número y porcentaje de valores que son comunes a la columna emparejada
El número total de valores distintos en la columna emparejada y el número y porcentaje de valores que son comunes a la columna base
Asigne relaciones según sea necesario.
Acceso a los detalles de ejecución del trabajo
Aunque puede acceder a los detalles de trabajo para el enriquecimiento de metadatos general desde el panel lateral, debe ir a la pestaña Trabajos del proyecto para ver el trabajo de análisis de relaciones. El trabajo es del tipo Análisis clave para activos de enriquecimiento de metadatos. El nombre de trabajo sigue el patrón metadata_enriquement_name (Relationship Detection).
Más información
Tema principal: Enriquecimiento de los activos de datos