0 / 0
Retourner à la version anglaise de la documentation
Sources de données prises en charge pour la conservation et la qualité des données
Dernière mise à jour : 13 déc. 2024
Sources de données prises en charge pour la conservation et la qualité des données

Vous pouvez vous connecter à de nombreuses sources de données à partir desquelles vous pouvez importer des métadonnées, sur lesquelles vous pouvez exécuter des règles d'enrichissement des métadonnées ou de qualité des données, que vous pouvez utiliser pour créer des vues dynamiques et sur lesquelles vous pouvez écrire les résultats des règles de qualité des données.

Un tiret (-) dans l'une des colonnes indique que la source de données n'est pas prise en charge à cette fin.

Par défaut, les règles de qualité de données et les flux DataStage sous-jacents prennent en charge les connexions de plateforme standard. Tous les connecteurs pris en charge dans DataStage traditionnel et potentiellement utilisés dans les flux DataStage personnalisés ne sont pas pris en charge dans IBM Knowledge Catalog.

Exigences et restrictions

Comprendre les exigences et les restrictions relatives aux connexions à utiliser pour la conservation des données et l'évaluation de la qualité des données.

Droits requis

Les utilisateurs doivent être autorisés à accéder aux connexions aux sources de données. Pour l'importation de métadonnées, l'utilisateur qui exécute l'importation doit disposer du droit SELECT ou d'un droit similaire sur les bases de données en question.

Conditions générales préalables

Des actifs de connexion doivent exister dans le projet pour les connexions utilisées dans les cas suivants:

  • Pour l'exécution d'un enrichissement de métadonnées comprenant une analyse avancée (analyse approfondie des clés primaires, analyse approfondie des relations ou profilage avancé des données) sur les biens dans un enrichissement de métadonnées
  • Pour l'exécution de règles de qualité de données
  • Pour la création d'actifs de données basés sur des requêtes (vues dynamiques)
  • Pour écrire la sortie des contrôles de qualité des données ou des tableaux de distribution de fréquence

Formats de données source pris en charge

En général, l'importation de métadonnées, l'enrichissement des métadonnées et les règles de qualité des données prennent en charge les formats de données suivants :

  • Tous: les tables des sources de données relationnelles et non relationnelles

    Pour Amazon S3, le format de table Delta Lake

  • Metadata import: tous les formats des connexions basées sur des fichiers aux sources de données. Pour les classeurs Microsoft Excel, chaque feuille est importée en tant qu'actif de données distinct. Le nom de l'actif de données est égal au nom de la feuille Excel.

  • Enrichissement des métadonnées: Tabulaire: CSV, TSV, Avro, Parquet, Microsoft Excel (pour les classeurs téléchargés à partir du système de fichiers local, seule la première feuille d'un classeur est profilée.)

  • Règles de qualité des données : Tableau : Avro, CSV, Parquet, ORC ; pour les ressources de données téléchargées à partir du système de fichiers local, CSV uniquement

Importation de la lignée

Pour importer des informations de lignage pour vos données, vous devez activer la fonction de lignage des données dans votre instance de service IBM Knowledge Catalog. Pour plus d'informations, voir Activation du lignage des données.

Support de base de données pour les tableaux de résultats d'analyse

En général, les tableaux de sortie générés au cours de l'analyse peuvent être écrits dans ces bases de données :

Si un connecteur de base de données spécifique prend également en charge les tables de sortie, la colonne Cible pour les tables de sortie est cochée.

Connecteurs de stockage de fichiers

Connecteurs basés sur des fichiers pris en charge
Connecteur Metadata import Enrichissement des métadonnées Règles fondées sur des définitions
Amazon S3
Apache HDFS
Encadré 1
S3 générique 1
IBM Cloud Object Storage
IBM Match 360
Microsoft Azure Data Lake Storage 1

Remarques :

1 L'analyse avancée n'est pas prise en charge pour cette source de données.

Connecteurs de base de données

Connexions prises en charge
Connecteur Metadata import (actifs) Metadata import (lineage) Enrichissement des métadonnées Règles fondées sur des définitions Règles SQL Actifs de données basés sur SQL Cible pour les tableaux de sortie
Amazon RDS for MySQL
Amazon RDS for Oracle
Amazon RDS for PostgreSQL
Amazon Redshift 1
Apache Cassandra
Apache Hive 5
Apache Impala avec Apache Kudu
Dremio
Google BigQuery 6
Greenplum
IBM Cloud Data Engine
IBM Cloud Databases for MongoDB
IBM Cloud Databases for MySQL
IBM Cloud Databases for PostgreSQL
IBM Data Virtualization
IBM Data Virtualization Manager for z/OS 2
IBM Db2
IBM Db2 Big SQL
IBM Db2 for z/OS
IBM Db2 on Cloud
IBM Db2 Warehouse
IBM Informix
IBM Netezza Performance Server
Connector Metadata import (actifs) Metadata import (lineage) Enrichissement des métadonnées Règles fondées sur des définitions Règles SQL Actifs de données SQL Cible pour les tableaux de sortie
MariaDB
Microsoft Azure Databricks7
Microsoft Azure SQL Database 1
Microsoft SQL Server
MongoDB
MySQL
Oracle 3
PostgreSQL
Salesforce.com 1 4
SAP ASE 1
SAP OData
Méthode d'authentification : nom d'utilisateur et mot de passe
8
SingleStoreDB
Snowflake 1
Teradata

Remarques :

1 L'analyse avancée n'est pas prise en charge pour cette source de données.

2 Avec Data Virtualization Manager for z/OS, vous ajoutez des données et des actifs COBOL copybooks des systèmes mainframe aux catalogues dans IBM Cloud Pak for Data. Les fichiers de stockage sont des fichiers qui décrivent la structure de données d'un programme COBOL. Data Virtualization Manager for z/OS vous aide à créer des tables virtuelles et des vues à partir de mappes de fichiers de stockage COBOL. Vous pouvez ensuite utiliser ces tables virtuelles et ces vues pour importer et cataloguer des données de grand système à partir de grands systèmes dans IBM Cloud Pak for Data sous la forme d'actifs de données et d'actifs de fichier de stockage COBOL.

Les types suivants de COBOL copybook maps ne sont pas importés : ACI, Catalogue, Naturel

Restriction : Vous ne pouvez pas importer des fichiers de stockage COBOL de plus de 1 Mo.

Lorsque l'importation est terminée, vous pouvez accéder au catalogue pour passer en revue les actifs importés, y compris les mappes de fichiers de stockage COBOL, les tables virtuelles et les vues. Vous pouvez utiliser ces actifs de la même manière que d'autres actifs dans Cloud Pak for Data.

Pour plus d'informations, voir Ajout d'actifs de fichier de stockage COBOL.

3 Les descriptions des tables et des colonnes ne sont importées que si la connexion est configurée avec l'une des options de découverte des métadonnées suivantes :

  • Aucun synonyme
  • Remarques et synonymes

4 Certains objets du schéma SFORCE ne sont pas pris en charge. Voir Salesforce.com.

5 Pour créer des tables de sortie d'enrichissement des métadonnées dans Apache Hive à une version antérieure à 3.0.0, vous devez appliquer la solution de contournement décrite dans Écrire des sorties d'enrichissement de métadonnées dans une version antérieure de Apache Hive à 3.0.0.

6 Tableaux de sortie pour le profilage avancé : Si vous réexécutez le profilage avancé à des intervalles trop courts, les résultats risquent de s'accumuler car les données ne sont pas mises à jour assez rapidement dans Google BigQuery. attendre au moins 90 minutes avant de réexécuter le profilage avancé avec la même cible de sortie. Pour plus d'informations, voir Disponibilité des données de flux. Vous pouvez également définir une table de sortie différente.

7 Hive Metastore et catalogue Unity

8 Il n'est pas possible de déterminer si la ressource de données est une table ou une vue et elle n'apparaît donc pas dans les résultats de l'enrichissement.

Connecteurs et autres sources de données spécifiques à l'importation de métadonnées

Vous pouvez importer des métadonnées d'actifs et de lignage à partir de sources de données supplémentaires.

Source de données Metadata import (actifs) Metadata import (lineage)
IBM DataStage for Cloud Pak for Data
InfoSphere DataStage
Microsoft Power BI (Azure)
MicroStrategy
OpenLineage
Tableau

En savoir plus

Rubrique parent : Curation

Recherche et réponse à l'IA générative
Ces réponses sont générées par un modèle de langue de grande taille dans watsonx.ai en fonction du contenu de la documentation du produit. En savoir plus