0 / 0

Unterstützte Konnektoren für die Erkennung, Anreicherung und Datenqualität von strukturierten Daten

Letzte Aktualisierung: 23. Apr. 2025
Unterstützte Konnektoren für die Erkennung, Anreicherung und Datenqualität von strukturierten Daten

Sie können eine Verbindung zu vielen Datenquellen herstellen, aus denen Sie Asset-Metadaten importieren und dann diese Datenbestände anreichern und ihre Datenqualität bewerten können. Sie können dynamische Ansichten der Daten in diesen Quellen erstellen. Sie können die Ergebnisse von Datenqualitätsanalysen auch in unterstützte Datenquellen schreiben.

Ein Bindestrich (-) in einer der Spalten bedeutet, dass die Datenquelle für diesen Zweck nicht unterstützt wird.

Standardmäßig unterstützen die Datenqualitätsregeln und die zugrundeliegenden DataStage Abläufe Standardplattformverbindungen. Nicht alle Konnektoren, die im traditionellen DataStage unterstützt wurden und möglicherweise in benutzerdefinierten DataStage Abläufen verwendet werden, werden in IBM Knowledge Catalog unterstützt.

Anforderungen und Einschränkungen

Verstehen der Anforderungen und Einschränkungen für Verbindungen, die bei der Datenkuration und der Bewertung der Datenqualität verwendet werden sollen.

Erforderliche Berechtigungen

Die Benutzer müssen zum Zugriff auf die Verbindungen zu den Datenquellen berechtigt sein. Für den Import von Metadaten muss der Benutzer, der den Import durchführt, das Recht SELECT oder ein ähnliches Recht für die betreffenden Datenbanken haben.

Allgemeine Voraussetzungen

Für Verbindungen, die in diesen Fällen verwendet werden, müssen Verbindungs-Assets im Projekt vorhanden sein:

  • Zur Durchführung von Metadatenanreicherung einschließlich erweiterter Analyse (eingehende Primärschlüsselanalyse, eingehende Beziehungsanalyse oder erweiterte Datenprofilerstellung) für Assets in einer Metadatenanreicherung
  • Für die Ausführung von Datenqualitätsregeln
  • Für die Erstellung abfragebasierter Datenbestände (dynamische Ansichten )
  • Zum Schreiben der Ausgabe von Datenqualitätsprüfungen oder Häufigkeitsverteilungstabellen

Unterstützte Quelldatenformate

Im Allgemeinen unterstützen die Regeln für den Metadatenimport, die Metadatenanreicherung und die Datenqualität die folgenden Datenformate:

  • Alle: Tabellen aus relationalen und nicht-relationalen Datenquellen

    Delta Lake und Iceberg-Tabellenformat für bestimmte Dateispeicheranschlüsse. Damit die Analysen wie erwartet funktionieren, importieren Sie bestimmte Dateien anstelle von Verzeichnissen der obersten Ebene:

    • Für Delta Lake Tabellen, importieren Sie _delta_log Dateien.
    • Für Iceberg-Tabellen importieren Sie metadata/version-hint.text Dateien.
  • Metadata import : Jedes Format von dateibasierten Verbindungen zu den Datenquellen. Bei Microsoft Excel-Arbeitsmappen wird jedes Blatt als separates Datenelement importiert. Der Name der Datenanlage entspricht dem Namen des Excel-Blatts.

  • Anreicherung von Metadaten: Tabellarisch: CSV, TSV, Avro, Parquet, Microsoft Excel (Bei Arbeitsmappen, die aus dem lokalen Dateisystem hochgeladen werden, wird nur das erste Blatt einer Arbeitsmappe profiliert)

  • Regeln für die Datenqualität: Tabellarisch: Avro, CSV, Parquet, ORC; für Datenbestände, die aus dem lokalen Dateisystem hochgeladen werden, nur CSV

Datenbankunterstützung für Analyseausgabetabellen

Im Allgemeinen können Ausgabetabellen mit Analyseergebnissen von Datenqualitätsanalysen, die als Teil der Metadatenanreicherung, der erweiterten Profilerstellung oder der Ausführung von Datenqualitätsregeln durchgeführt werden, in diese Datenbanken geschrieben werden:

Wenn ein bestimmter Datenbank-Connector auch Ausgabetabellen unterstützt, wird in der Spalte Ziel für Ausgabetabellen ein Häkchen gesetzt.

Anschlüsse für die Dateiablage

Unterstützte dateibasierte Konnektoren
Connector Metadata import Metadatenanreicherung Definitionsbasierte Regeln
Amazon S3
Delta Lake tische, Eisberg-Tische
Apache HDFS
Box 1
Allgemeine S3
Delta Lake Tabellen, Eisberg-Tabellen
Google Cloud Storage
Delta Lake tische, Eisberg-Tische
IBM Cloud Object Storage
IBM Match 360
Microsoft Azure Data Lake Storage
Delta Lake tische, Eisberg-Tische

Hinweise:

1 Die erweiterte Analyse wird für diese Datenquelle nicht unterstützt.

Datenbankconnector

Unterstützte Verbindungen
Connector Metadata import Metadatenanreicherung Definitionsbasierte Regeln SQL-basierte Regeln SQL-basierte Datenbestände Ziel für Ausgabetabellen
Amazon RDS for MySQL
Amazon RDS for Oracle
Amazon RDS for PostgreSQL
Amazon Redshift 1
Apache Cassandra
Apache Hive 5
Apache Impala mit Apache Kudu
Denodo
Dremio
Google BigQuery 6
Greenplum
IBM Cloud Databases for MongoDB
IBM Cloud Databases for MySQL
IBM Cloud Databases for PostgreSQL
IBM Data Virtualization
IBM Data Virtualization Manager for z/OS 2
IBM Db2
IBM Db2 Big SQL
IBM Db2 for z/OS
IBM Db2 on Cloud
IBM Db2 Warehouse
IBM Informix
IBM Netezza Performance Server
Connector Metadata import Metadatenaufbereitung Definitionsbasierte Regeln SQL-basierte Regeln SQL-basierte Datenbestände Ziel für Ausgabetabellen
MariaDB
Microsoft Azure Datenbausteine7
Microsoft Azure SQL Database
Microsoft SQL Server
MongoDB
MySQL
Oracle 3
PostgreSQL
Salesforce.com 1 4
SAP ASE 1
SAP OData
Authentifizierungsmethode: Benutzername und Passwort
8
SingleStoreDB
Snowflake
Teradata

Hinweise:

1 Die erweiterte Analyse wird für diese Datenquelle nicht unterstützt.

2 Mit Data Virtualization Manager for z/OS fügen Sie Daten und COBOL Copybooks von Mainframe-Systemen zu Katalogen in IBM Cloud Pak for Data hinzu. Copybooks sind Dateien, die die Datenstruktur eines COBOL-Programms beschreiben. Data Virtualization Manager for z/OS unterstützt Sie bei der Erstellung von virtuellen Tabellen und Ansichten aus COBOL-Copybook-Maps. Anschließend können Sie diese virtuellen Tabellen und Ansichten verwenden, um Mainframedaten aus Mainframes in IBM Cloud Pak for Data in Form von Datenassets und COBOL-Copybook-Assets zu importieren und zu katalogisieren.

Die folgenden Arten von COBOL Copybook-Karten werden nicht importiert: ACI, Katalog, Natural

Einschränkung: Sie können keine COBOL-Copybooks mit mehr als 1 MB importieren.

Wenn der Import abgeschlossen ist, können Sie zum Katalog wechseln, um die importierten Assets zu überprüfen, einschließlich der COBOL-Copybook-Maps, der virtuellen Tabellen und Ansichten. Sie können diese Assets auf die gleiche Weise verwenden wie andere Assets in Cloud Pak for Data.

Weitere Informationen finden Sie unter COBOL-Copybook-Assets hinzufügen.

3 Tabellen- und Spaltenbeschreibungen werden nur importiert, wenn die Verbindung mit einer der folgenden Metadaten-Ermittlungsoptionen konfiguriert ist:

  • Keine Synonyme
  • Bemerkungen und Synonyme

4 Einige Objekte im SFORCE-Schema werden nicht unterstützt. Siehe Salesforce.com.

5 Um Metadaten-Anreicherungs-Ausgabetabellen in Apache Hive in einer früheren Version als 3.0.0 zu erstellen, müssen Sie die unter Schreiben von Metadaten-Anreicherungs-Ausgabe in eine frühere Version von Apache Hive als 3.0.0 beschriebene Abhilfe anwenden.

6 Ausgabetabellen für die erweiterte Profilerstellung: Wenn Sie die erweiterte Profilerstellung in zu kurzen Abständen wiederholen, können sich die Ergebnisse häufen, weil die Daten in Google BigQuery möglicherweise nicht schnell genug aktualisiert werden. warten Sie mindestens 90 Minuten, bevor Sie die erweiterte Profilerstellung mit demselben Ausgabeziel erneut durchführen. Weitere Informationen finden Sie unter Verfügbarkeit von Streamdaten. Alternativ können Sie auch eine andere Ausgabetabelle definieren.

7 Hive Metastore und Unity-Katalog

8 Die Information, ob es sich bei dem Datenbestand um eine Tabelle oder eine Ansicht handelt, kann nicht abgerufen werden und wird daher in den Anreicherungsergebnissen nicht angezeigt.

Weitere Informationen

Übergeordnetes Thema: Unterstützte Konnektoren für Kuration und Datenqualität