0 / 0
Volver a la versión inglesa de la documentación
Orígenes de datos soportados para la ordenación y la calidad de los datos
Última actualización: 13 dic 2024
Orígenes de datos soportados para la ordenación y la calidad de los datos

Puede conectarse a muchas fuentes de datos desde las que puede importar metadatos, contra las que puede ejecutar reglas de enriquecimiento de metadatos o de calidad de datos, que puede utilizar para crear vistas dinámicas y en las que puede escribir la salida de las reglas de calidad de datos.

Un guión (-) en cualquiera de las columnas indica que la fuente de datos no es compatible con este fin.

De forma predeterminada, las reglas de calidad de datos y los flujos de DataStage subyacentes dan soporte a conexiones de plataforma estándar. No todos los conectores soportados en DataStage tradicional y potencialmente utilizados en flujos personalizados de DataStage están soportados en IBM Knowledge Catalog.

Requisitos y restricciones

Comprender los requisitos y restricciones de las conexiones que se utilizarán en la curación de datos y la evaluación de la calidad de los datos.

Permisos necesarios

Los usuarios deben tener autorización para acceder a las conexiones con los orígenes de datos. Para la importación de metadatos, el usuario que ejecuta la importación debe tener el permiso SELECT o similar en las bases de datos en cuestión.

Requisitos previos generales

Los activos de conexión deben existir en el proyecto para las conexiones que se utilizan en estos casos:

  • Para ejecutar el enriquecimiento de metadatos incluyendo análisis avanzados (análisis en profundidad de claves primarias, análisis en profundidad de relaciones o perfilado avanzado de datos) sobre activos en un enriquecimiento de metadatos
  • Para ejecutar reglas de calidad de datos
  • Para crear activos de datos basados en consultas (vistas dinámicas)
  • Para escribir resultados de comprobaciones de calidad de datos o tablas de distribución de frecuencia.

Formatos de datos de origen admitidos

En general, la importación de metadatos, el enriquecimiento de metadatos y las reglas de calidad de datos admiten los siguientes formatos de datos:

  • Todos: tablas de orígenes de datos relacionales y no relacionales

    Para Amazon S3, el formato de tabla Delta Lake

  • Metadata import: cualquier formato de conexiones basadas en archivo a los orígenes de datos. Para los libros de trabajo de Microsoft Excel, cada hoja se importa como un activo de datos independiente. El nombre del activo de datos es igual al nombre de la hoja Excel.

  • Enriquecimiento de metadatos: Tabular: CSV, TSV, Avro, Parquet, Microsoft Excel (para los libros de trabajo cargados desde el sistema de archivos local, sólo se perfila la primera hoja de un libro de trabajo).

  • Reglas de calidad de datos: Tabular: Avro, CSV, Parquet, ORC; para activos de datos cargados desde el sistema de archivos local, solo CSV

Importación de linajes

Para importar información de linaje para sus datos, debe habilitar la función de linaje de datos en su instancia de servicio de IBM Knowledge Catalog. Para obtener más información, consulte Activación del linaje de datos.

Soporte de bases de datos para tablas de resultados de análisis

En general, las tablas de salida que se generan durante el análisis pueden escribirse en estas bases de datos:

Si un conector de base de datos específico también admite tablas de salida, la columna Objetivo para tablas de salida muestra una marca de verificación.

Conectores de almacenamiento de archivos

Conectores basados en archivos compatibles
Conector Metadata import Enriquecimiento de metadatos Normas basadas en definiciones
Amazon S3
Apache HDFS
Cuadro 1
S3 genérico 1
IBM Cloud Object Storage
IBM Match 360
Microsoft Azure Data Lake Storage 1

Notas:

1 El análisis avanzado no es compatible con esta fuente de datos.

Conectores de base de datos

Conexiones soportadas
Conector Metadata import (activos) Metadata import (lineage) Enriquecimiento de metadatos Normas basadas en definiciones Reglas basadas en SQL Activos de datos basados en SQL Objetivo para las tablas de salida
Amazon RDS for MySQL
Amazon RDS for Oracle
Amazon RDS for PostgreSQL
Amazon Redshift 1
Apache Cassandra
Apache Hive 5
Apache Impala con Apache Kudu
Dremio
Google BigQuery 6
Greenplum
IBM Cloud Data Engine
IBM Cloud Databases for MongoDB
IBM Cloud Databases for MySQL
IBM Cloud Databases for PostgreSQL
IBM Data Virtualization
IBM Data Virtualization Manager for z/OS 2
IBM Db2
IBM Db2 Big SQL
IBM Db2 for z/OS
IBM Db2 on Cloud
IBM Db2 Warehouse
IBM Informix
IBM Netezza Performance Server
Connector Metadata import (activos) Metadata import (lineage) Enriquecimiento de metadatos Reglas basadas en definiciones Reglas basadas en SQL Activos de datos basados en SQL Objetivo de las tablas de salida
MariaDB
Microsoft Azure Databricks7
Microsoft Azure SQL Database 1
Microsoft SQL Server
MongoDB
MySQL
Oracle 3
PostgreSQL
Salesforce.com 1 4
SAP ASE 1
SAP OData
Método de autenticación: nombre de usuario y contraseña
8
SingleStoreDB
Snowflake 1
Teradata

Notas:

1 El análisis avanzado no es compatible con esta fuente de datos.

2 Con Data Virtualization Manager for z/OS, se añaden activos de datos y COBOL copybooks de sistemas mainframe a catálogos en IBM Cloud Pak for Data. Los libros de copias son archivos que describen la estructura de datos de un programa COBOL. Data Virtualization Manager for z/OS le ayuda a crear tablas y vistas virtuales a partir de correlaciones de libros de copias de COBOL. A continuación, puede utilizar estas tablas y vistas virtuales para importar y catalogar datos de sistema principal desde sistemas principales a IBM Cloud Pak for Data en forma de activos de datos y activos de libros de copias de COBOL.

Los siguientes tipos de mapas de copybook COBOL no se importan: ACI, Catálogo, Natural

Restricción: No se pueden importar libros de copias COBOL de más de 1 MB.

Cuando finalice la importación, puede ir al catálogo para revisar los activos importados, incluidas las correlaciones de libros de copias de COBOL, las tablas virtuales y las vistas. Puede utilizar estos activos de la misma forma que otros activos de Cloud Pak for Data.

Para obtener más información, consulte Adición de activos de libro de copias COBOL.

3 Las descripciones de tablas y columnas sólo se importan si la conexión está configurada con una de las siguientes opciones de detección de metadatos:

  • Sin sinónimos
  • Observaciones y sinónimos

4 Algunos objetos del esquema SFORCE no son compatibles. Consulte Salesforce.com.

5 Para crear tablas de salida de enriquecimiento de metadatos en Apache Hive en una versión anterior a 3.0.0, debe aplicar la solución alternativa descrita en Escribir salida de enriquecimiento de metadatos en una versión de Apache Hive anterior a 3.0.0.

6 Tablas de salida para la creación de perfiles avanzada: Si se vuelve a ejecutar la creación de perfiles avanzada a intervalos demasiado cortos, los resultados podrían acumularse porque los datos podrían no actualizarse lo suficientemente rápido en Google BigQuery. espere al menos 90 minutos antes de volver a ejecutar el perfilado avanzado con el mismo objetivo de salida. Para obtener más información, consulte Disponibilidad de datos de flujo. Alternativamente, puede definir una tabla de salida diferente.

7 Hive Metastore y catálogo de Unity

8 La información sobre si el activo de datos es una tabla o una vista no se puede recuperar y, por tanto, no se muestra en los resultados del enriquecimiento.

Conectores y otras fuentes de datos específicas para la importación de metadatos

Puede importar metadatos de activos y linajes desde fuentes de datos adicionales.

Origen de datos Metadata import (activos) Metadata import (lineage)
IBM DataStage for Cloud Pak for Data
InfoSphere DataStage
Microsoft Power BI (Azure)
MicroStrategy
OpenLineage
Tableau

Más información

Tema principal: Proceso

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información