0 / 0
Zurück zur englischen Version der Dokumentation
Unterstützte Datenquellen für Kuration und Datenqualität
Letzte Aktualisierung: 13. Dez. 2024
Unterstützte Datenquellen für Kuration und Datenqualität

Sie können eine Verbindung zu vielen Datenquellen herstellen, aus denen Sie Metadaten importieren können, mit denen Sie Metadatenanreicherungs- oder Datenqualitätsregeln ausführen können, die Sie zur Erstellung dynamischer Ansichten verwenden können und in die Sie die Ausgabe von Datenqualitätsregeln schreiben können.

Ein Bindestrich (-) in einer der Spalten bedeutet, dass die Datenquelle für diesen Zweck nicht unterstützt wird.

Standardmäßig unterstützen Datenqualitätsregeln und die zugrunde liegenden DataStage -Abläufe Standardplattformverbindungen. Nicht alle Connectors, die in traditionellen DataStage unterstützt und potenziell in angepassten DataStage -Flows verwendet wurden, werden in IBM Knowledge Catalogunterstützt.

Anforderungen und Einschränkungen

Verstehen der Anforderungen und Einschränkungen für Verbindungen, die bei der Datenkuration und der Bewertung der Datenqualität verwendet werden sollen.

Erforderliche Berechtigungen

Benutzer müssen für den Zugriff auf die Verbindungen zu den Datenquellen berechtigt sein. Beim Metadatenimport muss der Benutzer, der den Import ausführt, über die Berechtigung SELECT oder eine ähnliche Berechtigung für die betreffenden Datenbanken verfügen.

Allgemeine Voraussetzungen

Verbindungsassets müssen im Projekt für Verbindungen vorhanden sein, die in den folgenden Fällen verwendet werden:

  • Zur Durchführung von Metadatenanreicherung einschließlich erweiterter Analyse (eingehende Primärschlüsselanalyse, eingehende Beziehungsanalyse oder erweiterte Datenprofilerstellung) für Assets in einer Metadatenanreicherung
  • Zum Ausführen von Datenqualitätsregeln
  • Zum Erstellen abfragebasierter Datenassets (dynamische Ansichten)
  • Zum Schreiben von Ausgaben von Datenqualitätsprüfungen oder Häufigkeitsverteilungstabellen

Unterstützte Quelldatenformate

Im Allgemeinen unterstützen die Regeln für den Metadatenimport, die Metadatenanreicherung und die Datenqualität die folgenden Datenformate:

  • Alle: Tabellen aus relationalen und nicht relationalen Datenquellen

    Für Amazon S3, das Delta Lake-Tabellenformat

  • Metadata import: Ein beliebiges Format aus dateibasierten Verbindungen zu den Datenquellen Bei Microsoft Excel-Arbeitsmappen wird jedes Arbeitsblatt als separates Datenasset importiert. Der Name des Datenassets entspricht dem Namen des Excel-Arbeitsblatts.

  • Metadatenanreicherung: Tabellarisch: CSV, TSV, Avro, Parquet, Microsoft Excel (Bei Arbeitsmappen, die aus einem lokalen Dateisystem hochgeladen wurden, wird nur für das erste Arbeitsblatt in einer Arbeitsmappe ein Profil erstellt).

  • Regeln für die Datenqualität: Tabellarisch: Avro, CSV, Parquet, ORC; für Datenbestände, die aus dem lokalen Dateisystem hochgeladen wurden, nur CSV

Abstammung importieren

Um die Abstammungsinformationen für Ihre Daten zu importieren, müssen Sie die Datenabstammungsfunktion in Ihrer IBM Knowledge Catalog Service-Instanz aktivieren. Weitere Informationen finden Sie unter Aktivieren der Datenabfolge.

Datenbankunterstützung für Analyseausgabetabellen

Im Allgemeinen können Ausgabetabellen, die während der Analyse erzeugt werden, in diese Datenbanken geschrieben werden:

Wenn ein bestimmter Datenbankkonnektor auch Ausgabetabellen unterstützt, wird in der Spalte Ziel für Ausgabetabellen ein Häkchen gesetzt.

Anschlüsse für die Dateiablage

Unterstützte dateibasierte Konnektoren
Connector Metadata import Metadatenanreicherung Definitionsbasierte Regeln
Amazon S3
Apache HDFS
Box 1
Generisches S3 1
IBM Cloud Object Storage
IBM Match 360
Microsoft Azure Data Lake Storage 1

Hinweise:

1 Die erweiterte Analyse wird für diese Datenquelle nicht unterstützt.

Datenbankconnector

Unterstützte Verbindungen
Connector Metadata import (Assets) Metadata import (lineage) Metadatenanreicherung Definitionsbasierte Regeln SQL-basierte Regeln SQL-basierte Datenassets Ziel für Ausgabetabellen
Amazon RDS for MySQL
Amazon RDS for Oracle
Amazon RDS for PostgreSQL
Amazon Redshift 1
Apache Cassandra
Apache Hive 5
Apache Impala mit Apache Kudu
Dremio
Google BigQuery 6
Greenplum
IBM Cloud Data Engine
IBM Cloud Databases for MongoDB
IBM Cloud Databases for MySQL
IBM Cloud Databases for PostgreSQL
IBM Data Virtualization
IBM Data Virtualization Manager for z/OS 2
IBM Db2
IBM Db2 Big SQL
IBM Db2 for z/OS
IBM Db2 on Cloud
IBM Db2 Warehouse
IBM Informix
IBM Netezza Performance Server
Connector Metadata import (Assets) Metadata import (lineage) Metadatenaufbereitung Definitionsbasierte Regeln SQL-basierte Regeln SQL-basierte Datenassets Ziel für Ausgabetabellen
MariaDB
Microsoft Azure Databricks7
Microsoft Azure SQL Database 1
Microsoft SQL Server
MongoDB
MySQL
Oracle 3
PostgreSQL
Salesforce.com 1 4
SAP ASE 1
SAP OData
Authentifizierungsmethode: Benutzername und Passwort
8
SingleStoreDB
Snowflake 1
Teradata

Hinweise:

1 Die erweiterte Analyse wird für diese Datenquelle nicht unterstützt.

2 Mit Data Virtualization Manager for z/OS fügen Sie Daten und COBOL-Kopierwerke von Mainframe-Systemen zu Katalogen in IBM Cloud Pak for Data hinzu. Copybooks sind Dateien, die die Datenstruktur eines COBOL-Programms beschreiben. Data Virtualization Manager for z/OS unterstützt Sie bei der Erstellung von virtuellen Tabellen und Ansichten aus COBOL-Copybook-Maps. Anschließend können Sie diese virtuellen Tabellen und Ansichten verwenden, um Mainframedaten aus Mainframes in IBM Cloud Pak for Data in Form von Datenassets und COBOL-Copybook-Assets zu importieren und zu katalogisieren.

Die folgenden Typen von COBOL-Copybook-Karten werden nicht importiert: ACI, Katalog, Natural

Einschränkung: Sie können keine COBOL-Copybooks mit mehr als 1 MB importieren.

Wenn der Import abgeschlossen ist, können Sie zum Katalog wechseln, um die importierten Assets zu überprüfen, einschließlich der COBOL-Copybook-Maps, der virtuellen Tabellen und Ansichten. Sie können diese Assets auf die gleiche Weise verwenden wie andere Assets in Cloud Pak for Data.

Weitere Informationen finden Sie unter COBOL-Copybook-Assets hinzufügen.

3 Tabellen- und Spaltenbeschreibungen werden nur importiert, wenn die Verbindung mit einer der folgenden Metadaten-Ermittlungsoptionen konfiguriert ist:

  • Keine Synonyme
  • Bemerkungen und Synonyme

4 Einige Objekte im SFORCE-Schema werden nicht unterstützt. Siehe Salesforce.com.

5 Um Metadaten-Anreicherungstabellen in Apache Hive in einer früheren Version als 3.0.0 zu erstellen, müssen Sie die in Schreiben von Metadaten-Anreicherungsausgaben für eine frühere Version von Apache Hive als 3.0.0 beschriebene Abhilfe anwenden.

6 Ausgabetabellen für die erweiterte Profilerstellung: Wenn Sie die erweiterte Profilerstellung in zu kurzen Abständen wiederholen, können sich die Ergebnisse häufen, weil die Daten in Google BigQuery nicht schnell genug aktualisiert werden. warten Sie mindestens 90 Minuten, bevor Sie die erweiterte Profilerstellung mit demselben Ausgabeziel erneut durchführen. Weitere Informationen finden Sie unter Verfügbarkeit von Streaming-Daten. Alternativ können Sie auch eine andere Ausgabetabelle definieren.

7 Hive Metastore und Unity-Katalog

8 Die Information, ob es sich bei dem Datenbestand um eine Tabelle oder eine Ansicht handelt, kann nicht abgerufen werden und wird daher in den Anreicherungsergebnissen nicht angezeigt.

Konnektoren und andere Datenquellen speziell für den Metadatenimport

Sie können Asset- und Lineage-Metadaten aus zusätzlichen Datenquellen importieren.

Datenquelle Metadata import (Assets) Metadata import (lineage)
IBM DataStage für Cloud Pak for Data
InfoSphere DataStage
Microsoft Power BI (Azure)
MicroStrategy
OpenLineage
Tableau

Weitere Informationen

Übergeordnetes Thema: Kuration

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen