Puede conectarse a muchas fuentes de datos desde las que puede importar metadatos, contra las que puede ejecutar reglas de enriquecimiento de metadatos o de calidad de datos, que puede utilizar para crear vistas dinámicas y en las que puede escribir la salida de las reglas de calidad de datos.
Un guión (-) en cualquiera de las columnas indica que la fuente de datos no es compatible con este fin.
De forma predeterminada, las reglas de calidad de datos y los flujos de DataStage subyacentes dan soporte a conexiones de plataforma estándar. No todos los conectores soportados en DataStage tradicional y potencialmente utilizados en flujos personalizados de DataStage están soportados en IBM Knowledge Catalog.
Requisitos y restricciones
Comprender los requisitos y restricciones de las conexiones que se utilizarán en la curación de datos y la evaluación de la calidad de los datos.
Permisos necesarios
Los usuarios deben tener autorización para acceder a las conexiones con los orígenes de datos. Para la importación de metadatos, el usuario que ejecuta la importación debe tener el permiso SELECT o similar en las bases de datos en cuestión.
Requisitos previos generales
Los activos de conexión deben existir en el proyecto para las conexiones que se utilizan en estos casos:
- Para ejecutar el enriquecimiento de metadatos incluyendo análisis avanzados (análisis en profundidad de claves primarias, análisis en profundidad de relaciones o perfilado avanzado de datos) sobre activos en un enriquecimiento de metadatos
- Para ejecutar reglas de calidad de datos
- Para crear activos de datos basados en consultas (vistas dinámicas)
- Para escribir resultados de comprobaciones de calidad de datos o tablas de distribución de frecuencia.
Formatos de datos de origen admitidos
En general, la importación de metadatos, el enriquecimiento de metadatos y las reglas de calidad de datos admiten los siguientes formatos de datos:
Todos: tablas de orígenes de datos relacionales y no relacionales
Para Amazon S3, el formato de tabla Delta Lake
Metadata import: cualquier formato de conexiones basadas en archivo a los orígenes de datos. Para los libros de trabajo de Microsoft Excel, cada hoja se importa como un activo de datos independiente. El nombre del activo de datos es igual al nombre de la hoja Excel.
Enriquecimiento de metadatos: Tabular: CSV, TSV, Avro, Parquet, Microsoft Excel (para los libros de trabajo cargados desde el sistema de archivos local, sólo se perfila la primera hoja de un libro de trabajo).
Reglas de calidad de datos: Tabular: Avro, CSV, Parquet, ORC; para activos de datos cargados desde el sistema de archivos local, solo CSV
Importación de linajes
Para importar información de linaje para sus datos, debe habilitar la función de linaje de datos en su instancia de servicio de IBM Knowledge Catalog. Para obtener más información, consulte Activación del linaje de datos.
Soporte de bases de datos para tablas de resultados de análisis
En general, las tablas de salida que se generan durante el análisis pueden escribirse en estas bases de datos:
Si un conector de base de datos específico también admite tablas de salida, la columna Objetivo para tablas de salida muestra una marca de verificación.
Conectores de almacenamiento de archivos
Conector | Metadata import | Enriquecimiento de metadatos | Normas basadas en definiciones |
---|---|---|---|
Amazon S3 | ✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Cuadro | ✓ | 1 | — |
S3 genérico | ✓ | 1 | — |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage | ✓ | 1 | ✓ |
Notas:
1 El análisis avanzado no es compatible con esta fuente de datos.
Conectores de base de datos
Conector | Metadata import (activos) | Metadata import (lineage) | Enriquecimiento de metadatos | Normas basadas en definiciones | Reglas basadas en SQL | Activos de datos basados en SQL | Objetivo para las tablas de salida |
---|---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | — | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | — | ✓ | ✓ | — | — |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
Amazon Redshift | ✓ | — | 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | — | ✓ | ✓ | ✓ | ✓ | 5 |
Apache Impala con Apache Kudu | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | — | ✓ | ✓ | ✓ | ✓ | 6 |
Greenplum | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Data Engine | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MongoDB | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | — | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | — | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | — | ✓ | — | — | — | — |
IBM Informix | ✓ | — | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | — | ✓ | ✓ | ✓ | — | — |
Connector | Metadata import (activos) | Metadata import (lineage) | Enriquecimiento de metadatos | Reglas basadas en definiciones | Reglas basadas en SQL | Activos de datos basados en SQL | Objetivo de las tablas de salida |
MariaDB | ✓ | — | ✓ | — | — | — | — |
Microsoft Azure Databricks7 | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | 1 | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | — | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | — | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | — | 1 | ✓ | ✓ | ✓ | — |
SAP OData Método de autenticación: nombre de usuario y contraseña |
✓ | — | 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | 1 | ✓ | ✓ | ✓ | — |
Teradata | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Notas:
1 El análisis avanzado no es compatible con esta fuente de datos.
2 Con Data Virtualization Manager for z/OS, se añaden activos de datos y COBOL copybooks de sistemas mainframe a catálogos en IBM Cloud Pak for Data. Los libros de copias son archivos que describen la estructura de datos de un programa COBOL. Data Virtualization Manager for z/OS le ayuda a crear tablas y vistas virtuales a partir de correlaciones de libros de copias de COBOL. A continuación, puede utilizar estas tablas y vistas virtuales para importar y catalogar datos de sistema principal desde sistemas principales a IBM Cloud Pak for Data en forma de activos de datos y activos de libros de copias de COBOL.
Los siguientes tipos de mapas de copybook COBOL no se importan: ACI, Catálogo, Natural
Cuando finalice la importación, puede ir al catálogo para revisar los activos importados, incluidas las correlaciones de libros de copias de COBOL, las tablas virtuales y las vistas. Puede utilizar estos activos de la misma forma que otros activos de Cloud Pak for Data.
Para obtener más información, consulte Adición de activos de libro de copias COBOL.
3 Las descripciones de tablas y columnas sólo se importan si la conexión está configurada con una de las siguientes opciones de detección de metadatos:
- Sin sinónimos
- Observaciones y sinónimos
4 Algunos objetos del esquema SFORCE no son compatibles. Consulte Salesforce.com.
5 Para crear tablas de salida de enriquecimiento de metadatos en Apache Hive en una versión anterior a 3.0.0, debe aplicar la solución alternativa descrita en Escribir salida de enriquecimiento de metadatos en una versión de Apache Hive anterior a 3.0.0.
6 Tablas de salida para la creación de perfiles avanzada: Si se vuelve a ejecutar la creación de perfiles avanzada a intervalos demasiado cortos, los resultados podrían acumularse porque los datos podrían no actualizarse lo suficientemente rápido en Google BigQuery. espere al menos 90 minutos antes de volver a ejecutar el perfilado avanzado con el mismo objetivo de salida. Para obtener más información, consulte Disponibilidad de datos de flujo. Alternativamente, puede definir una tabla de salida diferente.
7 Hive Metastore y catálogo de Unity
8 La información sobre si el activo de datos es una tabla o una vista no se puede recuperar y, por tanto, no se muestra en los resultados del enriquecimiento.
Conectores y otras fuentes de datos específicas para la importación de metadatos
Puede importar metadatos de activos y linajes desde fuentes de datos adicionales.
Origen de datos | Metadata import (activos) | Metadata import (lineage) |
---|---|---|
IBM DataStage for Cloud Pak for Data | — | ✓ |
InfoSphere DataStage | — | ✓ |
Microsoft Power BI (Azure) | — | ✓ |
MicroStrategy | — | ✓ |
OpenLineage | — | ✓ |
Tableau | — | ✓ |
Más información
- Importar metadatos
- Enriquecimiento de los activos de datos
- Creación de reglas a partir de definiciones de calidad de datos
- Creación de reglas basadas en SQL
Tema principal: Proceso