0 / 0

Connecteurs pris en charge pour la découverte, l'enrichissement et la qualité des données structurées

Dernière mise à jour : 23 avr. 2025
Connecteurs pris en charge pour la découverte, l'enrichissement et la qualité des données structurées

Vous pouvez vous connecter à de nombreuses sources de données à partir desquelles vous pouvez importer des métadonnées sur les actifs, puis enrichir ces actifs et évaluer la qualité des données. Vous pouvez créer des vues dynamiques des données contenues dans ces sources. Vous pouvez également écrire les résultats des analyses de la qualité des données dans les sources de données prises en charge.

Un tiret (-) dans l'une des colonnes indique que la source de données n'est pas prise en charge à cette fin.

Par défaut, les règles de qualité des données et les flux sous-jacents de DataStage prennent en charge les connexions standard de la plate-forme. Tous les connecteurs pris en charge dans la version traditionnelle de DataStage et potentiellement utilisés dans les flux personnalisés de DataStage ne sont pas pris en charge dans IBM Knowledge Catalog.

Exigences et restrictions

Comprendre les exigences et les restrictions relatives aux connexions à utiliser pour la conservation des données et l'évaluation de la qualité des données.

Droits requis

Les utilisateurs doivent être autorisés à accéder aux connexions aux sources de données. Pour l'importation de métadonnées, l'utilisateur qui exécute l'importation doit disposer de l'autorisation SELECT ou d'une autorisation similaire sur les bases de données en question.

Conditions générales préalables

Des actifs de connexion doivent exister dans le projet pour les connexions utilisées dans ces cas :

  • Pour l'exécution d'un enrichissement de métadonnées comprenant une analyse avancée (analyse approfondie des clés primaires, analyse approfondie des relations ou profilage avancé des données) sur les biens dans un enrichissement de métadonnées
  • Pour l'exécution des règles de qualité des données
  • Pour créer des ressources de données basées sur des requêtes (vues dynamiques )
  • Pour l'écriture des résultats des contrôles de qualité des données ou des tableaux de distribution de fréquence

Formats de données source pris en charge

En général, l'importation de métadonnées, l'enrichissement des métadonnées et les règles de qualité des données prennent en charge les formats de données suivants :

  • Tous : Tables provenant de sources de données relationnelles et non relationnelles

    Delta Lake et le format de table Iceberg pour certains connecteurs de stockage de fichiers. Pour que les analyses fonctionnent comme prévu, importez des fichiers spécifiques plutôt que des répertoires de premier niveau :

    • Pour les tables Delta Lake, importer les fichiers _delta_log .
    • Pour les tables Iceberg, importer les fichiers metadata/version-hint.text .
  • Metadata import : Tout format à partir de connexions aux sources de données basées sur des fichiers. Pour les classeurs Microsoft Excel, chaque feuille est importée comme une donnée distincte. Le nom de la ressource de données correspond au nom de la feuille Excel.

  • Enrichissement des métadonnées : Tabulaire : CSV, TSV, Avro, Parquet, Microsoft Excel (Pour les classeurs téléchargés depuis le système de fichiers local, seule la première feuille d'un classeur est profilée)

  • Règles de qualité des données : Tabulaire : Avro, CSV, Parquet, ORC; pour les données téléchargées à partir du système de fichiers local, CSV uniquement

Support de base de données pour les tableaux de résultats d'analyse

En général, les tableaux de sortie contenant les résultats de l'analyse de la qualité des données effectuée dans le cadre de l'enrichissement des métadonnées, du profilage avancé ou de l'exécution des règles de qualité des données peuvent être écrits dans ces bases de données :

Si un connecteur de base de données spécifique prend également en charge les tables de sortie, la colonne Cible pour les tables de sortie est cochée.

Connecteurs de stockage de fichiers

Connecteurs basés sur des fichiers pris en charge
Connecteur Metadata import Enrichissement des métadonnées Règles fondées sur des définitions
Amazon S3
Delta Lake tables, tables Iceberg
Apache HDFS
Encadré 1
Générique S3
Delta Lake tables, Iceberg tables
Google Cloud Storage
Delta Lake tables, tables Iceberg
IBM Cloud Object Storage
IBM Match 360
Microsoft Azure Data Lake Storage
Delta Lake tables, tables Iceberg

Remarques :

1 L'analyse avancée n'est pas prise en charge pour cette source de données.

Connecteurs de base de données

Connexions prises en charge
Connecteur Metadata import Enrichissement des métadonnées Règles fondées sur des définitions Règles basées sur SQL Actifs de données basés sur SQL Cible pour les tableaux de sortie
Amazon RDS for MySQL
Amazon RDS for Oracle
Amazon RDS for PostgreSQL
Amazon Redshift 1
Apache Cassandra
Apache Hive 5
Apache Impala avec Apache Kudu
Denodo
Dremio
Google BigQuery 6
Greenplum
IBM Cloud Databases for MongoDB
IBM Cloud Databases for MySQL
IBM Cloud Databases for PostgreSQL
IBM Data Virtualization
IBM Data Virtualization Manager for z/OS 2
IBM Db2
IBM Db2 Big SQL
IBM Db2 for z/OS
IBM Db2 on Cloud
IBM Db2 Warehouse
IBM Informix
IBM Netezza Performance Server
Connector Metadata import Enrichissement des métadonnées Règles fondées sur des définitions Règles basées sur SQL Actifs de données basés sur SQL Cible pour les tableaux de sortie
MariaDB
Microsoft Azure Databricks7
Microsoft Azure SQL Database
Microsoft SQL Server
MongoDB
MySQL
Oracle 3
PostgreSQL
Salesforce.com 1 4
SAP ASE 1
SAP OData
Méthode d'authentification : nom d'utilisateur et mot de passe
8
SingleStoreDB
Snowflake
Teradata

Remarques :

1 L'analyse avancée n'est pas prise en charge pour cette source de données.

2 Avec Data Virtualization Manager for z/OS, vous ajoutez des données et des COBOL copybooks assets provenant de systèmes mainframe à des catalogues dans IBM Cloud Pak for Data. Les fichiers de stockage sont des fichiers qui décrivent la structure de données d'un programme COBOL. Data Virtualization Manager for z/OS vous aide à créer des tables virtuelles et des vues à partir de mappes de fichiers de stockage COBOL. Vous pouvez ensuite utiliser ces tables virtuelles et ces vues pour importer et cataloguer des données de grand système à partir de grands systèmes dans IBM Cloud Pak for Data sous la forme d'actifs de données et d'actifs de fichier de stockage COBOL.

Les types suivants de cartes du carnet d'adresses COBOL ne sont pas importés : ACI, Catalogue, Naturel

Restriction : Vous ne pouvez pas importer des fichiers de stockage COBOL de plus de 1 Mo.

Lorsque l'importation est terminée, vous pouvez accéder au catalogue pour passer en revue les actifs importés, y compris les mappes de fichiers de stockage COBOL, les tables virtuelles et les vues. Vous pouvez utiliser ces actifs de la même manière que d'autres actifs dans Cloud Pak for Data.

Pour plus d'informations, voir Ajout d'actifs de fichier de stockage COBOL.

3 Les descriptions des tables et des colonnes ne sont importées que si la connexion est configurée avec l'une des options de découverte des métadonnées suivantes :

  • Aucun synonyme
  • Remarques et synonymes

4 Certains objets du schéma SFORCE ne sont pas pris en charge. Voir Salesforce.com.

5 Pour créer des tables de sortie d'enrichissement des métadonnées dans Apache Hive à une version antérieure à 3.0.0, vous devez appliquer la solution de contournement décrite dans Écrire une sortie d'enrichissement des métadonnées à une version antérieure de Apache Hive par rapport à 3.0.0.

6 Tableaux de sortie pour le profilage avancé : Si vous exécutez à nouveau le profilage avancé à intervalles trop courts, les résultats risquent de s'accumuler car les données ne sont pas mises à jour assez rapidement dans Google BigQuery. attendre au moins 90 minutes avant de réexécuter le profilage avancé avec la même cible de sortie. Pour plus d'informations, voir la disponibilité des données sur les flux. Vous pouvez également définir une table de sortie différente.

7 Hive Metastore et catalogue Unity

8 Il n'est pas possible de savoir si la ressource de données est une table ou une vue et cette information n'apparaît donc pas dans les résultats de l'enrichissement.

En savoir plus

Thème parent : Connecteurs pris en charge pour la curation et la qualité des données