Conectores compatibles para la detección, el enriquecimiento y la calidad de los datos estructurados
Puede conectarse a muchas fuentes de datos desde las que importar metadatos de activos y, a continuación, enriquecer esos activos de datos y evaluar su calidad. Puede crear vistas dinámicas de los datos de estas fuentes. También puede escribir el resultado de los análisis de calidad de datos en fuentes de datos compatibles.
Un guión (-) en cualquiera de las columnas indica que la fuente de datos no es compatible con este fin.
Por defecto, las reglas de calidad de datos y los flujos subyacentes de DataStage admiten conexiones de plataforma estándar. No todos los conectores que se admitían en la versión tradicional de DataStage y que podían utilizarse en los flujos personalizados de DataStage son compatibles con IBM Knowledge Catalog.
Requisitos y restricciones
Comprender los requisitos y restricciones de las conexiones que se utilizarán en la curación de datos y la evaluación de la calidad de los datos.
Permisos necesarios
Los usuarios deben estar autorizados para acceder a las conexiones con las fuentes de datos. Para la importación de metadatos, el usuario que ejecuta la importación debe tener el permiso SELECT o uno similar en las bases de datos en cuestión.
Requisitos previos generales
Deben existir activos de conexión en el proyecto para las conexiones que se utilicen en estos casos:
- Para ejecutar el enriquecimiento de metadatos incluyendo análisis avanzados (análisis en profundidad de claves primarias, análisis en profundidad de relaciones o perfilado avanzado de datos) sobre activos en un enriquecimiento de metadatos
- Para ejecutar reglas de calidad de datos
- Para crear activos de datos basados en consultas (vistas dinámicas )
- Para escribir los resultados de las comprobaciones de calidad de los datos o las tablas de distribución de frecuencias
Formatos de datos de origen admitidos
En general, la importación de metadatos, el enriquecimiento de metadatos y las reglas de calidad de datos admiten los siguientes formatos de datos:
Todos: Tablas de fuentes de datos relacionales y no relacionales
Delta Lake y el formato de tabla Iceberg para determinados conectores de almacenamiento de archivos. Para que los análisis funcionen como es debido, importe archivos específicos en lugar de directorios de nivel superior:
- Para las tablas Delta Lake, importe los archivos
_delta_log
. - Para las tablas Iceberg, importe los archivos
metadata/version-hint.text
.
- Para las tablas Delta Lake, importe los archivos
Metadata import : Cualquier formato de conexiones basadas en ficheros a las fuentes de datos. En el caso de los libros de Microsoft Excel, cada hoja se importa como un activo de datos independiente. El nombre del activo de datos es igual al nombre de la hoja Excel.
Enriquecimiento de metadatos: Tabular: CSV, TSV, Avro, Parquet, Microsoft Excel (Para los libros de trabajo cargados desde el sistema de archivos local, sólo se perfila la primera hoja de un libro de trabajo)
Normas de calidad de los datos: Tabular: Avro, CSV, Parquet, ORC; para los activos de datos cargados desde el sistema de archivos local, sólo CSV
Soporte de bases de datos para tablas de resultados de análisis
En general, las tablas de salida con los resultados de los análisis de calidad de datos ejecutados como parte del enriquecimiento de metadatos, la creación avanzada de perfiles o la ejecución de reglas de calidad de datos pueden escribirse en estas bases de datos:
Si un conector de base de datos específico también admite tablas de salida, la columna Destino para tablas de salida muestra una marca de verificación.
Conectores de almacenamiento de archivos
Conector | Metadata import | Enriquecimiento de metadatos | Normas basadas en definiciones |
---|---|---|---|
Amazon S3 Delta Lake mesas, mesas Iceberg |
✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Cuadro | ✓ | ✓ 1 | — |
S3 genérico Delta Lake tablas, tablas Iceberg |
✓ | ✓ | ✓ |
Google Cloud Storage Delta Lake mesas, mesas Iceberg |
✓ | ✓ | ✓ |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage Delta Lake mesas, mesas Iceberg |
✓ | ✓ | ✓ |
Notas:
1 El análisis avanzado no es compatible con esta fuente de datos.
Conectores de base de datos
Conector | Metadata import | Enriquecimiento de metadatos | Normas basadas en definiciones | Reglas basadas en SQL | Activos de datos basados en SQL | Objetivo para las tablas de salida |
---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Amazon Redshift | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala con Apache Kudu | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Denodo |
✓ | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Databases for MongoDB | ✓ | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | ✓ | — | — | — | — |
IBM Informix | ✓ | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | ✓ | ✓ | ✓ | — | — |
Connector | Metadata import | Enriquecimiento de metadatos | Normas basadas en definiciones | Reglas basadas en SQL | Activos de datos basados en SQL | Objetivo para las tablas de salida |
MariaDB | ✓ | ✓ | — | — | — | — |
Microsoft Azure Databricks7 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData Método de autenticación: nombre de usuario y contraseña |
✓ | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Teradata | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Notas:
1 El análisis avanzado no es compatible con esta fuente de datos.
2 Con Data Virtualization Manager for z/OS, se añaden datos y COBOL copybooks activos de sistemas mainframe a catálogos en IBM Cloud Pak for Data. Los libros de copias son archivos que describen la estructura de datos de un programa COBOL. Data Virtualization Manager for z/OS le ayuda a crear tablas y vistas virtuales a partir de correlaciones de libros de copias de COBOL. A continuación, puede utilizar estas tablas y vistas virtuales para importar y catalogar datos de sistema principal desde sistemas principales a IBM Cloud Pak for Data en forma de activos de datos y activos de libros de copias de COBOL.
Los siguientes tipos de mapas de copybook de COBOL no se importan: ACI, Catálogo, Natural
Cuando finalice la importación, puede ir al catálogo para revisar los activos importados, incluidas las correlaciones de libros de copias de COBOL, las tablas virtuales y las vistas. Puede utilizar estos activos de la misma forma que otros activos de Cloud Pak for Data.
Para obtener más información, consulte Adición de activos de libro de copias COBOL.
3 Las descripciones de tablas y columnas sólo se importan si la conexión está configurada con una de las siguientes opciones de detección de metadatos :
- Sin sinónimos
- Observaciones y sinónimos
4 Algunos objetos del esquema SFORCE no son compatibles. Véase Salesforce.com.
5 Para crear tablas de salida de enriquecimiento de metadatos en Apache Hive en una versión anterior a 3.0.0, debe aplicar la solución alternativa descrita en Cómo escribir una salida de enriquecimiento de metadatos en una versión de Apache Hive anterior a 3.0.0.
6 Tablas de salida del perfilado avanzado: Si vuelve a ejecutar la creación avanzada de perfiles a intervalos demasiado cortos, los resultados podrían acumularse porque los datos podrían no actualizarse con la suficiente rapidez en Google BigQuery. espere al menos 90 minutos antes de volver a ejecutar el perfilado avanzado con el mismo objetivo de salida. Para más información, consulte Disponibilidad de datos de flujos. Alternativamente, puede definir una tabla de salida diferente.
7 Hive Metastore y catálogo Unity
8 La información sobre si el activo de datos es una tabla o una vista no puede recuperarse y, por tanto, no se muestra en los resultados del enriquecimiento.
Más información
- Importar metadatos
- Enriquecimiento de los activos de datos
- Creación de activos de datos mediante consultas SQL
- Creación de reglas a partir de definiciones de calidad de datos
- Creación de reglas basadas en SQL
Tema principal: Conectores compatibles para la curación y la calidad de los datos