Unterstützte Konnektoren für die Erkennung, Anreicherung und Datenqualität von strukturierten Daten
Sie können eine Verbindung zu vielen Datenquellen herstellen, aus denen Sie Asset-Metadaten importieren und dann diese Datenbestände anreichern und ihre Datenqualität bewerten können. Sie können dynamische Ansichten der Daten in diesen Quellen erstellen. Sie können die Ergebnisse von Datenqualitätsanalysen auch in unterstützte Datenquellen schreiben.
Ein Bindestrich (-) in einer der Spalten bedeutet, dass die Datenquelle für diesen Zweck nicht unterstützt wird.
Standardmäßig unterstützen die Datenqualitätsregeln und die zugrundeliegenden DataStage Abläufe Standardplattformverbindungen. Nicht alle Konnektoren, die im traditionellen DataStage unterstützt wurden und möglicherweise in benutzerdefinierten DataStage Abläufen verwendet werden, werden in IBM Knowledge Catalog unterstützt.
Anforderungen und Einschränkungen
Verstehen der Anforderungen und Einschränkungen für Verbindungen, die bei der Datenkuration und der Bewertung der Datenqualität verwendet werden sollen.
Erforderliche Berechtigungen
Die Benutzer müssen zum Zugriff auf die Verbindungen zu den Datenquellen berechtigt sein. Für den Import von Metadaten muss der Benutzer, der den Import durchführt, das Recht SELECT oder ein ähnliches Recht für die betreffenden Datenbanken haben.
Allgemeine Voraussetzungen
Für Verbindungen, die in diesen Fällen verwendet werden, müssen Verbindungs-Assets im Projekt vorhanden sein:
- Zur Durchführung von Metadatenanreicherung einschließlich erweiterter Analyse (eingehende Primärschlüsselanalyse, eingehende Beziehungsanalyse oder erweiterte Datenprofilerstellung) für Assets in einer Metadatenanreicherung
- Für die Ausführung von Datenqualitätsregeln
- Für die Erstellung abfragebasierter Datenbestände (dynamische Ansichten )
- Zum Schreiben der Ausgabe von Datenqualitätsprüfungen oder Häufigkeitsverteilungstabellen
Unterstützte Quelldatenformate
Im Allgemeinen unterstützen die Regeln für den Metadatenimport, die Metadatenanreicherung und die Datenqualität die folgenden Datenformate:
Alle: Tabellen aus relationalen und nicht-relationalen Datenquellen
Delta Lake und Iceberg-Tabellenformat für bestimmte Dateispeicheranschlüsse. Damit die Analysen wie erwartet funktionieren, importieren Sie bestimmte Dateien anstelle von Verzeichnissen der obersten Ebene:
- Für Delta Lake Tabellen, importieren Sie
_delta_log
Dateien. - Für Iceberg-Tabellen importieren Sie
metadata/version-hint.text
Dateien.
- Für Delta Lake Tabellen, importieren Sie
Metadata import : Jedes Format von dateibasierten Verbindungen zu den Datenquellen. Bei Microsoft Excel-Arbeitsmappen wird jedes Blatt als separates Datenelement importiert. Der Name der Datenanlage entspricht dem Namen des Excel-Blatts.
Anreicherung von Metadaten: Tabellarisch: CSV, TSV, Avro, Parquet, Microsoft Excel (Bei Arbeitsmappen, die aus dem lokalen Dateisystem hochgeladen werden, wird nur das erste Blatt einer Arbeitsmappe profiliert)
Regeln für die Datenqualität: Tabellarisch: Avro, CSV, Parquet, ORC; für Datenbestände, die aus dem lokalen Dateisystem hochgeladen werden, nur CSV
Datenbankunterstützung für Analyseausgabetabellen
Im Allgemeinen können Ausgabetabellen mit Analyseergebnissen von Datenqualitätsanalysen, die als Teil der Metadatenanreicherung, der erweiterten Profilerstellung oder der Ausführung von Datenqualitätsregeln durchgeführt werden, in diese Datenbanken geschrieben werden:
Wenn ein bestimmter Datenbank-Connector auch Ausgabetabellen unterstützt, wird in der Spalte Ziel für Ausgabetabellen ein Häkchen gesetzt.
Anschlüsse für die Dateiablage
Connector | Metadata import | Metadatenanreicherung | Definitionsbasierte Regeln |
---|---|---|---|
Amazon S3 Delta Lake tische, Eisberg-Tische |
✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Box | ✓ | ✓ 1 | — |
Allgemeine S3 Delta Lake Tabellen, Eisberg-Tabellen |
✓ | ✓ | ✓ |
Google Cloud Storage Delta Lake tische, Eisberg-Tische |
✓ | ✓ | ✓ |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage Delta Lake tische, Eisberg-Tische |
✓ | ✓ | ✓ |
Hinweise:
1 Die erweiterte Analyse wird für diese Datenquelle nicht unterstützt.
Datenbankconnector
Connector | Metadata import | Metadatenanreicherung | Definitionsbasierte Regeln | SQL-basierte Regeln | SQL-basierte Datenbestände | Ziel für Ausgabetabellen |
---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Amazon Redshift | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala mit Apache Kudu | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Denodo |
✓ | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Databases for MongoDB | ✓ | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | ✓ | — | — | — | — |
IBM Informix | ✓ | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | ✓ | ✓ | ✓ | — | — |
Connector | Metadata import | Metadatenaufbereitung | Definitionsbasierte Regeln | SQL-basierte Regeln | SQL-basierte Datenbestände | Ziel für Ausgabetabellen |
MariaDB | ✓ | ✓ | — | — | — | — |
Microsoft Azure Datenbausteine7 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData Authentifizierungsmethode: Benutzername und Passwort |
✓ | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Teradata | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Hinweise:
1 Die erweiterte Analyse wird für diese Datenquelle nicht unterstützt.
2 Mit Data Virtualization Manager for z/OS fügen Sie Daten und COBOL Copybooks von Mainframe-Systemen zu Katalogen in IBM Cloud Pak for Data hinzu. Copybooks sind Dateien, die die Datenstruktur eines COBOL-Programms beschreiben. Data Virtualization Manager for z/OS unterstützt Sie bei der Erstellung von virtuellen Tabellen und Ansichten aus COBOL-Copybook-Maps. Anschließend können Sie diese virtuellen Tabellen und Ansichten verwenden, um Mainframedaten aus Mainframes in IBM Cloud Pak for Data in Form von Datenassets und COBOL-Copybook-Assets zu importieren und zu katalogisieren.
Die folgenden Arten von COBOL Copybook-Karten werden nicht importiert: ACI, Katalog, Natural
Wenn der Import abgeschlossen ist, können Sie zum Katalog wechseln, um die importierten Assets zu überprüfen, einschließlich der COBOL-Copybook-Maps, der virtuellen Tabellen und Ansichten. Sie können diese Assets auf die gleiche Weise verwenden wie andere Assets in Cloud Pak for Data.
Weitere Informationen finden Sie unter COBOL-Copybook-Assets hinzufügen.
3 Tabellen- und Spaltenbeschreibungen werden nur importiert, wenn die Verbindung mit einer der folgenden Metadaten-Ermittlungsoptionen konfiguriert ist:
- Keine Synonyme
- Bemerkungen und Synonyme
4 Einige Objekte im SFORCE-Schema werden nicht unterstützt. Siehe Salesforce.com.
5 Um Metadaten-Anreicherungs-Ausgabetabellen in Apache Hive in einer früheren Version als 3.0.0 zu erstellen, müssen Sie die unter Schreiben von Metadaten-Anreicherungs-Ausgabe in eine frühere Version von Apache Hive als 3.0.0 beschriebene Abhilfe anwenden.
6 Ausgabetabellen für die erweiterte Profilerstellung: Wenn Sie die erweiterte Profilerstellung in zu kurzen Abständen wiederholen, können sich die Ergebnisse häufen, weil die Daten in Google BigQuery möglicherweise nicht schnell genug aktualisiert werden. warten Sie mindestens 90 Minuten, bevor Sie die erweiterte Profilerstellung mit demselben Ausgabeziel erneut durchführen. Weitere Informationen finden Sie unter Verfügbarkeit von Streamdaten. Alternativ können Sie auch eine andere Ausgabetabelle definieren.
7 Hive Metastore und Unity-Katalog
8 Die Information, ob es sich bei dem Datenbestand um eine Tabelle oder eine Ansicht handelt, kann nicht abgerufen werden und wird daher in den Anreicherungsergebnissen nicht angezeigt.
Weitere Informationen
- Metadaten importieren
- Datenassets aufbereiten
- Erstellen von Datenbeständen mit Hilfe von SQL-Abfragen
- Erstellen von Regeln aus Datenqualitätsdefinitionen
- Erstellen von SQL-basierten Regeln
Übergeordnetes Thema: Unterstützte Konnektoren für Kuration und Datenqualität