Connecteurs pris en charge pour la découverte, l'enrichissement et la qualité des données structurées
Vous pouvez vous connecter à de nombreuses sources de données à partir desquelles vous pouvez importer des métadonnées sur les actifs, puis enrichir ces actifs et évaluer la qualité des données. Vous pouvez créer des vues dynamiques des données contenues dans ces sources. Vous pouvez également écrire les résultats des analyses de la qualité des données dans les sources de données prises en charge.
Un tiret (-) dans l'une des colonnes indique que la source de données n'est pas prise en charge à cette fin.
Par défaut, les règles de qualité des données et les flux sous-jacents de DataStage prennent en charge les connexions standard de la plate-forme. Tous les connecteurs pris en charge dans la version traditionnelle de DataStage et potentiellement utilisés dans les flux personnalisés de DataStage ne sont pas pris en charge dans IBM Knowledge Catalog.
Exigences et restrictions
Comprendre les exigences et les restrictions relatives aux connexions à utiliser pour la conservation des données et l'évaluation de la qualité des données.
Droits requis
Les utilisateurs doivent être autorisés à accéder aux connexions aux sources de données. Pour l'importation de métadonnées, l'utilisateur qui exécute l'importation doit disposer de l'autorisation SELECT ou d'une autorisation similaire sur les bases de données en question.
Conditions générales préalables
Des actifs de connexion doivent exister dans le projet pour les connexions utilisées dans ces cas :
- Pour l'exécution d'un enrichissement de métadonnées comprenant une analyse avancée (analyse approfondie des clés primaires, analyse approfondie des relations ou profilage avancé des données) sur les biens dans un enrichissement de métadonnées
- Pour l'exécution des règles de qualité des données
- Pour créer des ressources de données basées sur des requêtes (vues dynamiques )
- Pour l'écriture des résultats des contrôles de qualité des données ou des tableaux de distribution de fréquence
Formats de données source pris en charge
En général, l'importation de métadonnées, l'enrichissement des métadonnées et les règles de qualité des données prennent en charge les formats de données suivants :
Tous : Tables provenant de sources de données relationnelles et non relationnelles
Delta Lake et le format de table Iceberg pour certains connecteurs de stockage de fichiers. Pour que les analyses fonctionnent comme prévu, importez des fichiers spécifiques plutôt que des répertoires de premier niveau :
- Pour les tables Delta Lake, importer les fichiers
_delta_log
. - Pour les tables Iceberg, importer les fichiers
metadata/version-hint.text
.
- Pour les tables Delta Lake, importer les fichiers
Metadata import : Tout format à partir de connexions aux sources de données basées sur des fichiers. Pour les classeurs Microsoft Excel, chaque feuille est importée comme une donnée distincte. Le nom de la ressource de données correspond au nom de la feuille Excel.
Enrichissement des métadonnées : Tabulaire : CSV, TSV, Avro, Parquet, Microsoft Excel (Pour les classeurs téléchargés depuis le système de fichiers local, seule la première feuille d'un classeur est profilée)
Règles de qualité des données : Tabulaire : Avro, CSV, Parquet, ORC; pour les données téléchargées à partir du système de fichiers local, CSV uniquement
Support de base de données pour les tableaux de résultats d'analyse
En général, les tableaux de sortie contenant les résultats de l'analyse de la qualité des données effectuée dans le cadre de l'enrichissement des métadonnées, du profilage avancé ou de l'exécution des règles de qualité des données peuvent être écrits dans ces bases de données :
Si un connecteur de base de données spécifique prend également en charge les tables de sortie, la colonne Cible pour les tables de sortie est cochée.
Connecteurs de stockage de fichiers
Connecteur | Metadata import | Enrichissement des métadonnées | Règles fondées sur des définitions |
---|---|---|---|
Amazon S3 Delta Lake tables, tables Iceberg |
✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Encadré | ✓ | ✓ 1 | — |
Générique S3 Delta Lake tables, Iceberg tables |
✓ | ✓ | ✓ |
Google Cloud Storage Delta Lake tables, tables Iceberg |
✓ | ✓ | ✓ |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage Delta Lake tables, tables Iceberg |
✓ | ✓ | ✓ |
Remarques :
1 L'analyse avancée n'est pas prise en charge pour cette source de données.
Connecteurs de base de données
Connecteur | Metadata import | Enrichissement des métadonnées | Règles fondées sur des définitions | Règles basées sur SQL | Actifs de données basés sur SQL | Cible pour les tableaux de sortie |
---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Amazon Redshift | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala avec Apache Kudu | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Denodo |
✓ | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Databases for MongoDB | ✓ | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | ✓ | — | — | — | — |
IBM Informix | ✓ | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | ✓ | ✓ | ✓ | — | — |
Connector | Metadata import | Enrichissement des métadonnées | Règles fondées sur des définitions | Règles basées sur SQL | Actifs de données basés sur SQL | Cible pour les tableaux de sortie |
MariaDB | ✓ | ✓ | — | — | — | — |
Microsoft Azure Databricks7 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData Méthode d'authentification : nom d'utilisateur et mot de passe |
✓ | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Teradata | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Remarques :
1 L'analyse avancée n'est pas prise en charge pour cette source de données.
2 Avec Data Virtualization Manager for z/OS, vous ajoutez des données et des COBOL copybooks assets provenant de systèmes mainframe à des catalogues dans IBM Cloud Pak for Data. Les fichiers de stockage sont des fichiers qui décrivent la structure de données d'un programme COBOL. Data Virtualization Manager for z/OS vous aide à créer des tables virtuelles et des vues à partir de mappes de fichiers de stockage COBOL. Vous pouvez ensuite utiliser ces tables virtuelles et ces vues pour importer et cataloguer des données de grand système à partir de grands systèmes dans IBM Cloud Pak for Data sous la forme d'actifs de données et d'actifs de fichier de stockage COBOL.
Les types suivants de cartes du carnet d'adresses COBOL ne sont pas importés : ACI, Catalogue, Naturel
Lorsque l'importation est terminée, vous pouvez accéder au catalogue pour passer en revue les actifs importés, y compris les mappes de fichiers de stockage COBOL, les tables virtuelles et les vues. Vous pouvez utiliser ces actifs de la même manière que d'autres actifs dans Cloud Pak for Data.
Pour plus d'informations, voir Ajout d'actifs de fichier de stockage COBOL.
3 Les descriptions des tables et des colonnes ne sont importées que si la connexion est configurée avec l'une des options de découverte des métadonnées suivantes :
- Aucun synonyme
- Remarques et synonymes
4 Certains objets du schéma SFORCE ne sont pas pris en charge. Voir Salesforce.com.
5 Pour créer des tables de sortie d'enrichissement des métadonnées dans Apache Hive à une version antérieure à 3.0.0, vous devez appliquer la solution de contournement décrite dans Écrire une sortie d'enrichissement des métadonnées à une version antérieure de Apache Hive par rapport à 3.0.0.
6 Tableaux de sortie pour le profilage avancé : Si vous exécutez à nouveau le profilage avancé à intervalles trop courts, les résultats risquent de s'accumuler car les données ne sont pas mises à jour assez rapidement dans Google BigQuery. attendre au moins 90 minutes avant de réexécuter le profilage avancé avec la même cible de sortie. Pour plus d'informations, voir la disponibilité des données sur les flux. Vous pouvez également définir une table de sortie différente.
7 Hive Metastore et catalogue Unity
8 Il n'est pas possible de savoir si la ressource de données est une table ou une vue et cette information n'apparaît donc pas dans les résultats de l'enrichissement.
En savoir plus
- Importation de métadonnées
- Enrichissement de vos données d'actifs
- Création de ressources de données à l'aide de requêtes SQL
- Création de règles à partir de définitions de la qualité des données
- Création de règles basées sur SQL
Thème parent : Connecteurs pris en charge pour la curation et la qualité des données