Vous pouvez vous connecter à de nombreuses sources de données à partir desquelles vous pouvez importer des métadonnées, sur lesquelles vous pouvez exécuter des règles d'enrichissement des métadonnées ou de qualité des données, que vous pouvez utiliser pour créer des vues dynamiques et sur lesquelles vous pouvez écrire les résultats des règles de qualité des données.
Un tiret (-) dans l'une des colonnes indique que la source de données n'est pas prise en charge à cette fin.
Par défaut, les règles de qualité de données et les flux DataStage sous-jacents prennent en charge les connexions de plateforme standard. Tous les connecteurs pris en charge dans DataStage traditionnel et potentiellement utilisés dans les flux DataStage personnalisés ne sont pas pris en charge dans IBM Knowledge Catalog.
Exigences et restrictions
Comprendre les exigences et les restrictions relatives aux connexions à utiliser pour la conservation des données et l'évaluation de la qualité des données.
Droits requis
Les utilisateurs doivent être autorisés à accéder aux connexions aux sources de données. Pour l'importation de métadonnées, l'utilisateur qui exécute l'importation doit disposer du droit SELECT ou d'un droit similaire sur les bases de données en question.
Conditions générales préalables
Des actifs de connexion doivent exister dans le projet pour les connexions utilisées dans les cas suivants:
- Pour l'exécution d'un enrichissement de métadonnées comprenant une analyse avancée (analyse approfondie des clés primaires, analyse approfondie des relations ou profilage avancé des données) sur les biens dans un enrichissement de métadonnées
- Pour l'exécution de règles de qualité de données
- Pour la création d'actifs de données basés sur des requêtes (vues dynamiques)
- Pour écrire la sortie des contrôles de qualité des données ou des tableaux de distribution de fréquence
Formats de données source pris en charge
En général, l'importation de métadonnées, l'enrichissement des métadonnées et les règles de qualité des données prennent en charge les formats de données suivants :
Tous: les tables des sources de données relationnelles et non relationnelles
Pour Amazon S3, le format de table Delta Lake
Metadata import: tous les formats des connexions basées sur des fichiers aux sources de données. Pour les classeurs Microsoft Excel, chaque feuille est importée en tant qu'actif de données distinct. Le nom de l'actif de données est égal au nom de la feuille Excel.
Enrichissement des métadonnées: Tabulaire: CSV, TSV, Avro, Parquet, Microsoft Excel (pour les classeurs téléchargés à partir du système de fichiers local, seule la première feuille d'un classeur est profilée.)
Règles de qualité des données : Tableau : Avro, CSV, Parquet, ORC ; pour les ressources de données téléchargées à partir du système de fichiers local, CSV uniquement
Importation de la lignée
Pour importer des informations de lignage pour vos données, vous devez activer la fonction de lignage des données dans votre instance de service IBM Knowledge Catalog. Pour plus d'informations, voir Activation du lignage des données.
Support de base de données pour les tableaux de résultats d'analyse
En général, les tableaux de sortie générés au cours de l'analyse peuvent être écrits dans ces bases de données :
Si un connecteur de base de données spécifique prend également en charge les tables de sortie, la colonne Cible pour les tables de sortie est cochée.
Connecteurs de stockage de fichiers
Connecteur | Metadata import | Enrichissement des métadonnées | Règles fondées sur des définitions |
---|---|---|---|
Amazon S3 | ✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Encadré | ✓ | ✓ 1 | — |
S3 générique | ✓ | ✓ 1 | — |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage | ✓ | ✓ 1 | ✓ |
Remarques :
1 L'analyse avancée n'est pas prise en charge pour cette source de données.
Connecteurs de base de données
Connecteur | Metadata import (actifs) | Metadata import (lineage) | Enrichissement des métadonnées | Règles fondées sur des définitions | Règles SQL | Actifs de données basés sur SQL | Cible pour les tableaux de sortie |
---|---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | — | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | — | ✓ | ✓ | — | — |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
Amazon Redshift | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala avec Apache Kudu | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Data Engine | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MongoDB | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | — | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | — | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | — | ✓ | — | — | — | — |
IBM Informix | ✓ | — | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | — | ✓ | ✓ | ✓ | — | — |
Connector | Metadata import (actifs) | Metadata import (lineage) | Enrichissement des métadonnées | Règles fondées sur des définitions | Règles SQL | Actifs de données SQL | Cible pour les tableaux de sortie |
MariaDB | ✓ | — | ✓ | — | — | — | — |
Microsoft Azure Databricks7 | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | — | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | — | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData Méthode d'authentification : nom d'utilisateur et mot de passe |
✓ | — | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Teradata | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Remarques :
1 L'analyse avancée n'est pas prise en charge pour cette source de données.
2 Avec Data Virtualization Manager for z/OS, vous ajoutez des données et des actifs COBOL copybooks des systèmes mainframe aux catalogues dans IBM Cloud Pak for Data. Les fichiers de stockage sont des fichiers qui décrivent la structure de données d'un programme COBOL. Data Virtualization Manager for z/OS vous aide à créer des tables virtuelles et des vues à partir de mappes de fichiers de stockage COBOL. Vous pouvez ensuite utiliser ces tables virtuelles et ces vues pour importer et cataloguer des données de grand système à partir de grands systèmes dans IBM Cloud Pak for Data sous la forme d'actifs de données et d'actifs de fichier de stockage COBOL.
Les types suivants de COBOL copybook maps ne sont pas importés : ACI, Catalogue, Naturel
Lorsque l'importation est terminée, vous pouvez accéder au catalogue pour passer en revue les actifs importés, y compris les mappes de fichiers de stockage COBOL, les tables virtuelles et les vues. Vous pouvez utiliser ces actifs de la même manière que d'autres actifs dans Cloud Pak for Data.
Pour plus d'informations, voir Ajout d'actifs de fichier de stockage COBOL.
3 Les descriptions des tables et des colonnes ne sont importées que si la connexion est configurée avec l'une des options de découverte des métadonnées suivantes :
- Aucun synonyme
- Remarques et synonymes
4 Certains objets du schéma SFORCE ne sont pas pris en charge. Voir Salesforce.com.
5 Pour créer des tables de sortie d'enrichissement des métadonnées dans Apache Hive à une version antérieure à 3.0.0, vous devez appliquer la solution de contournement décrite dans Écrire des sorties d'enrichissement de métadonnées dans une version antérieure de Apache Hive à 3.0.0.
6 Tableaux de sortie pour le profilage avancé : Si vous réexécutez le profilage avancé à des intervalles trop courts, les résultats risquent de s'accumuler car les données ne sont pas mises à jour assez rapidement dans Google BigQuery. attendre au moins 90 minutes avant de réexécuter le profilage avancé avec la même cible de sortie. Pour plus d'informations, voir Disponibilité des données de flux. Vous pouvez également définir une table de sortie différente.
7 Hive Metastore et catalogue Unity
8 Il n'est pas possible de déterminer si la ressource de données est une table ou une vue et elle n'apparaît donc pas dans les résultats de l'enrichissement.
Connecteurs et autres sources de données spécifiques à l'importation de métadonnées
Vous pouvez importer des métadonnées d'actifs et de lignage à partir de sources de données supplémentaires.
Source de données | Metadata import (actifs) | Metadata import (lineage) |
---|---|---|
IBM DataStage for Cloud Pak for Data | — | ✓ |
InfoSphere DataStage | — | ✓ |
Microsoft Power BI (Azure) | — | ✓ |
MicroStrategy | — | ✓ |
OpenLineage | — | ✓ |
Tableau | — | ✓ |
En savoir plus
- Importation de métadonnées
- Enrichissement de vos données d'actifs
- Création de règles à partir de définitions de qualité de données
- Création de règles SQL
Rubrique parent : Curation