0 / 0

Conectores compatibles para la detección, el enriquecimiento y la calidad de los datos estructurados

Última actualización: 15 abr 2025
Conectores compatibles para la detección, el enriquecimiento y la calidad de los datos estructurados

Puede conectarse a muchas fuentes de datos desde las que importar metadatos de activos y, a continuación, enriquecer esos activos de datos y evaluar su calidad. Puede crear vistas dinámicas de los datos de estas fuentes. También puede escribir el resultado de los análisis de calidad de datos en fuentes de datos compatibles.

Un guión (-) en cualquiera de las columnas indica que la fuente de datos no es compatible con este fin.

Por defecto, las reglas de calidad de datos y los flujos subyacentes de DataStage admiten conexiones de plataforma estándar. No todos los conectores que se admitían en la versión tradicional de DataStage y que podían utilizarse en los flujos personalizados de DataStage son compatibles con IBM Knowledge Catalog.

Requisitos y restricciones

Comprender los requisitos y restricciones de las conexiones que se utilizarán en la curación de datos y la evaluación de la calidad de los datos.

Permisos necesarios

Los usuarios deben estar autorizados para acceder a las conexiones con las fuentes de datos. Para la importación de metadatos, el usuario que ejecuta la importación debe tener el permiso SELECT o uno similar en las bases de datos en cuestión.

Requisitos previos generales

Deben existir activos de conexión en el proyecto para las conexiones que se utilicen en estos casos:

  • Para ejecutar el enriquecimiento de metadatos incluyendo análisis avanzados (análisis en profundidad de claves primarias, análisis en profundidad de relaciones o perfilado avanzado de datos) sobre activos en un enriquecimiento de metadatos
  • Para ejecutar reglas de calidad de datos
  • Para crear activos de datos basados en consultas (vistas dinámicas )
  • Para escribir los resultados de las comprobaciones de calidad de los datos o las tablas de distribución de frecuencias

Formatos de datos de origen admitidos

En general, la importación de metadatos, el enriquecimiento de metadatos y las reglas de calidad de datos admiten los siguientes formatos de datos:

  • Todos: Tablas de fuentes de datos relacionales y no relacionales

    Delta Lake y el formato de tabla Iceberg para determinados conectores de almacenamiento de archivos. Para que los análisis funcionen como es debido, importe archivos específicos en lugar de directorios de nivel superior:

    • Para las tablas Delta Lake, importe los archivos _delta_log .
    • Para las tablas Iceberg, importe los archivos metadata/version-hint.text .
  • Metadata import : Cualquier formato de conexiones basadas en ficheros a las fuentes de datos. En el caso de los libros de Microsoft Excel, cada hoja se importa como un activo de datos independiente. El nombre del activo de datos es igual al nombre de la hoja Excel.

  • Enriquecimiento de metadatos: Tabular: CSV, TSV, Avro, Parquet, Microsoft Excel (Para los libros de trabajo cargados desde el sistema de archivos local, sólo se perfila la primera hoja de un libro de trabajo)

  • Normas de calidad de los datos: Tabular: Avro, CSV, Parquet, ORC; para los activos de datos cargados desde el sistema de archivos local, sólo CSV

Soporte de bases de datos para tablas de resultados de análisis

En general, las tablas de salida con los resultados de los análisis de calidad de datos ejecutados como parte del enriquecimiento de metadatos, la creación avanzada de perfiles o la ejecución de reglas de calidad de datos pueden escribirse en estas bases de datos:

Si un conector de base de datos específico también admite tablas de salida, la columna Destino para tablas de salida muestra una marca de verificación.

Conectores de almacenamiento de archivos

Conectores basados en archivos compatibles
Conector Metadata import Enriquecimiento de metadatos Normas basadas en definiciones
Amazon S3
Delta Lake mesas, mesas Iceberg
Apache HDFS
Cuadro 1
S3 genérico
Delta Lake tablas, tablas Iceberg
Google Cloud Storage
Delta Lake mesas, mesas Iceberg
IBM Cloud Object Storage
IBM Match 360
Microsoft Azure Data Lake Storage
Delta Lake mesas, mesas Iceberg

Notas:

1 El análisis avanzado no es compatible con esta fuente de datos.

Conectores de base de datos

Conexiones soportadas
Conector Metadata import Enriquecimiento de metadatos Normas basadas en definiciones Reglas basadas en SQL Activos de datos basados en SQL Objetivo para las tablas de salida
Amazon RDS for MySQL
Amazon RDS for Oracle
Amazon RDS for PostgreSQL
Amazon Redshift 1
Apache Cassandra
Apache Hive 5
Apache Impala con Apache Kudu
Denodo
Dremio
Google BigQuery 6
Greenplum
IBM Cloud Databases for MongoDB
IBM Cloud Databases for MySQL
IBM Cloud Databases for PostgreSQL
IBM Data Virtualization
IBM Data Virtualization Manager for z/OS 2
IBM Db2
IBM Db2 Big SQL
IBM Db2 for z/OS
IBM Db2 on Cloud
IBM Db2 Warehouse
IBM Informix
IBM Netezza Performance Server
Connector Metadata import Enriquecimiento de metadatos Normas basadas en definiciones Reglas basadas en SQL Activos de datos basados en SQL Objetivo para las tablas de salida
MariaDB
Microsoft Azure Databricks7
Microsoft Azure SQL Database
Microsoft SQL Server
MongoDB
MySQL
Oracle 3
PostgreSQL
Salesforce.com 1 4
SAP ASE 1
SAP OData
Método de autenticación: nombre de usuario y contraseña
8
SingleStoreDB
Snowflake
Teradata

Notas:

1 El análisis avanzado no es compatible con esta fuente de datos.

2 Con Data Virtualization Manager for z/OS, se añaden datos y COBOL copybooks activos de sistemas mainframe a catálogos en IBM Cloud Pak for Data. Los libros de copias son archivos que describen la estructura de datos de un programa COBOL. Data Virtualization Manager for z/OS le ayuda a crear tablas y vistas virtuales a partir de correlaciones de libros de copias de COBOL. A continuación, puede utilizar estas tablas y vistas virtuales para importar y catalogar datos de sistema principal desde sistemas principales a IBM Cloud Pak for Data en forma de activos de datos y activos de libros de copias de COBOL.

Los siguientes tipos de mapas de copybook de COBOL no se importan: ACI, Catálogo, Natural

Restricción: No se pueden importar libros de copias COBOL de más de 1 MB.

Cuando finalice la importación, puede ir al catálogo para revisar los activos importados, incluidas las correlaciones de libros de copias de COBOL, las tablas virtuales y las vistas. Puede utilizar estos activos de la misma forma que otros activos de Cloud Pak for Data.

Para obtener más información, consulte Adición de activos de libro de copias COBOL.

3 Las descripciones de tablas y columnas sólo se importan si la conexión está configurada con una de las siguientes opciones de detección de metadatos :

  • Sin sinónimos
  • Observaciones y sinónimos

4 Algunos objetos del esquema SFORCE no son compatibles. Véase Salesforce.com.

5 Para crear tablas de salida de enriquecimiento de metadatos en Apache Hive en una versión anterior a 3.0.0, debe aplicar la solución alternativa descrita en Cómo escribir una salida de enriquecimiento de metadatos en una versión de Apache Hive anterior a 3.0.0.

6 Tablas de salida del perfilado avanzado: Si vuelve a ejecutar la creación avanzada de perfiles a intervalos demasiado cortos, los resultados podrían acumularse porque los datos podrían no actualizarse con la suficiente rapidez en Google BigQuery. espere al menos 90 minutos antes de volver a ejecutar el perfilado avanzado con el mismo objetivo de salida. Para más información, consulte Disponibilidad de datos de flujos. Alternativamente, puede definir una tabla de salida diferente.

7 Hive Metastore y catálogo Unity

8 La información sobre si el activo de datos es una tabla o una vista no puede recuperarse y, por tanto, no se muestra en los resultados del enriquecimiento.

Más información

Tema principal: Conectores compatibles para la curación y la calidad de los datos