Sie können eine Verbindung zu vielen Datenquellen herstellen, aus denen Sie Metadaten importieren können, mit denen Sie Metadatenanreicherungs- oder Datenqualitätsregeln ausführen können, die Sie zur Erstellung dynamischer Ansichten verwenden können und in die Sie die Ausgabe von Datenqualitätsregeln schreiben können.
Ein Bindestrich (-) in einer der Spalten bedeutet, dass die Datenquelle für diesen Zweck nicht unterstützt wird.
Standardmäßig unterstützen Datenqualitätsregeln und die zugrunde liegenden DataStage -Abläufe Standardplattformverbindungen. Nicht alle Connectors, die in traditionellen DataStage unterstützt und potenziell in angepassten DataStage -Flows verwendet wurden, werden in IBM Knowledge Catalogunterstützt.
Anforderungen und Einschränkungen
Verstehen der Anforderungen und Einschränkungen für Verbindungen, die bei der Datenkuration und der Bewertung der Datenqualität verwendet werden sollen.
Erforderliche Berechtigungen
Benutzer müssen für den Zugriff auf die Verbindungen zu den Datenquellen berechtigt sein. Beim Metadatenimport muss der Benutzer, der den Import ausführt, über die Berechtigung SELECT oder eine ähnliche Berechtigung für die betreffenden Datenbanken verfügen.
Allgemeine Voraussetzungen
Verbindungsassets müssen im Projekt für Verbindungen vorhanden sein, die in den folgenden Fällen verwendet werden:
- Zur Durchführung von Metadatenanreicherung einschließlich erweiterter Analyse (eingehende Primärschlüsselanalyse, eingehende Beziehungsanalyse oder erweiterte Datenprofilerstellung) für Assets in einer Metadatenanreicherung
- Zum Ausführen von Datenqualitätsregeln
- Zum Erstellen abfragebasierter Datenassets (dynamische Ansichten)
- Zum Schreiben von Ausgaben von Datenqualitätsprüfungen oder Häufigkeitsverteilungstabellen
Unterstützte Quelldatenformate
Im Allgemeinen unterstützen die Regeln für den Metadatenimport, die Metadatenanreicherung und die Datenqualität die folgenden Datenformate:
Alle: Tabellen aus relationalen und nicht relationalen Datenquellen
Für Amazon S3, das Delta Lake-Tabellenformat
Metadata import: Ein beliebiges Format aus dateibasierten Verbindungen zu den Datenquellen Bei Microsoft Excel-Arbeitsmappen wird jedes Arbeitsblatt als separates Datenasset importiert. Der Name des Datenassets entspricht dem Namen des Excel-Arbeitsblatts.
Metadatenanreicherung: Tabellarisch: CSV, TSV, Avro, Parquet, Microsoft Excel (Bei Arbeitsmappen, die aus einem lokalen Dateisystem hochgeladen wurden, wird nur für das erste Arbeitsblatt in einer Arbeitsmappe ein Profil erstellt).
Regeln für die Datenqualität: Tabellarisch: Avro, CSV, Parquet, ORC; für Datenbestände, die aus dem lokalen Dateisystem hochgeladen wurden, nur CSV
Abstammung importieren
Um die Abstammungsinformationen für Ihre Daten zu importieren, müssen Sie die Datenabstammungsfunktion in Ihrer IBM Knowledge Catalog Service-Instanz aktivieren. Weitere Informationen finden Sie unter Aktivieren der Datenabfolge.
Datenbankunterstützung für Analyseausgabetabellen
Im Allgemeinen können Ausgabetabellen, die während der Analyse erzeugt werden, in diese Datenbanken geschrieben werden:
Wenn ein bestimmter Datenbankkonnektor auch Ausgabetabellen unterstützt, wird in der Spalte Ziel für Ausgabetabellen ein Häkchen gesetzt.
Anschlüsse für die Dateiablage
Connector | Metadata import | Metadatenanreicherung | Definitionsbasierte Regeln |
---|---|---|---|
Amazon S3 | ✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Box | ✓ | ✓ 1 | — |
Generisches S3 | ✓ | ✓ 1 | — |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage | ✓ | ✓ 1 | ✓ |
Hinweise:
1 Die erweiterte Analyse wird für diese Datenquelle nicht unterstützt.
Datenbankconnector
Connector | Metadata import (Assets) | Metadata import (lineage) | Metadatenanreicherung | Definitionsbasierte Regeln | SQL-basierte Regeln | SQL-basierte Datenassets | Ziel für Ausgabetabellen |
---|---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | — | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | — | ✓ | ✓ | — | — |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
Amazon Redshift | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala mit Apache Kudu | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Data Engine | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MongoDB | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | — | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | — | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | — | ✓ | — | — | — | — |
IBM Informix | ✓ | — | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | — | ✓ | ✓ | ✓ | — | — |
Connector | Metadata import (Assets) | Metadata import (lineage) | Metadatenaufbereitung | Definitionsbasierte Regeln | SQL-basierte Regeln | SQL-basierte Datenassets | Ziel für Ausgabetabellen |
MariaDB | ✓ | — | ✓ | — | — | — | — |
Microsoft Azure Databricks7 | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | — | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | — | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData Authentifizierungsmethode: Benutzername und Passwort |
✓ | — | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Teradata | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Hinweise:
1 Die erweiterte Analyse wird für diese Datenquelle nicht unterstützt.
2 Mit Data Virtualization Manager for z/OS fügen Sie Daten und COBOL-Kopierwerke von Mainframe-Systemen zu Katalogen in IBM Cloud Pak for Data hinzu. Copybooks sind Dateien, die die Datenstruktur eines COBOL-Programms beschreiben. Data Virtualization Manager for z/OS unterstützt Sie bei der Erstellung von virtuellen Tabellen und Ansichten aus COBOL-Copybook-Maps. Anschließend können Sie diese virtuellen Tabellen und Ansichten verwenden, um Mainframedaten aus Mainframes in IBM Cloud Pak for Data in Form von Datenassets und COBOL-Copybook-Assets zu importieren und zu katalogisieren.
Die folgenden Typen von COBOL-Copybook-Karten werden nicht importiert: ACI, Katalog, Natural
Wenn der Import abgeschlossen ist, können Sie zum Katalog wechseln, um die importierten Assets zu überprüfen, einschließlich der COBOL-Copybook-Maps, der virtuellen Tabellen und Ansichten. Sie können diese Assets auf die gleiche Weise verwenden wie andere Assets in Cloud Pak for Data.
Weitere Informationen finden Sie unter COBOL-Copybook-Assets hinzufügen.
3 Tabellen- und Spaltenbeschreibungen werden nur importiert, wenn die Verbindung mit einer der folgenden Metadaten-Ermittlungsoptionen konfiguriert ist:
- Keine Synonyme
- Bemerkungen und Synonyme
4 Einige Objekte im SFORCE-Schema werden nicht unterstützt. Siehe Salesforce.com.
5 Um Metadaten-Anreicherungstabellen in Apache Hive in einer früheren Version als 3.0.0 zu erstellen, müssen Sie die in Schreiben von Metadaten-Anreicherungsausgaben für eine frühere Version von Apache Hive als 3.0.0 beschriebene Abhilfe anwenden.
6 Ausgabetabellen für die erweiterte Profilerstellung: Wenn Sie die erweiterte Profilerstellung in zu kurzen Abständen wiederholen, können sich die Ergebnisse häufen, weil die Daten in Google BigQuery nicht schnell genug aktualisiert werden. warten Sie mindestens 90 Minuten, bevor Sie die erweiterte Profilerstellung mit demselben Ausgabeziel erneut durchführen. Weitere Informationen finden Sie unter Verfügbarkeit von Streaming-Daten. Alternativ können Sie auch eine andere Ausgabetabelle definieren.
7 Hive Metastore und Unity-Katalog
8 Die Information, ob es sich bei dem Datenbestand um eine Tabelle oder eine Ansicht handelt, kann nicht abgerufen werden und wird daher in den Anreicherungsergebnissen nicht angezeigt.
Konnektoren und andere Datenquellen speziell für den Metadatenimport
Sie können Asset- und Lineage-Metadaten aus zusätzlichen Datenquellen importieren.
Datenquelle | Metadata import (Assets) | Metadata import (lineage) |
---|---|---|
IBM DataStage für Cloud Pak for Data | — | ✓ |
InfoSphere DataStage | — | ✓ |
Microsoft Power BI (Azure) | — | ✓ |
MicroStrategy | — | ✓ |
OpenLineage | — | ✓ |
Tableau | — | ✓ |
Weitere Informationen
- Metadaten importieren
- Datenassets aufbereiten
- Regeln aus Datenqualitätsdefinitionen erstellen
- SQL-basierte Regeln erstellen
Übergeordnetes Thema: Kuration