È possibile connettersi a molte fonti di dati da cui importare metadati, su cui eseguire regole di arricchimento dei metadati o di qualità dei dati, da utilizzare per creare viste dinamiche e su cui scrivere l'output delle regole di qualità dei dati.
Un trattino (-) in una qualsiasi delle colonne indica che l'origine dati non è supportata per questo scopo.
Per impostazione predefinita, le regole di qualità dei dati e i flussi DataStage sottostanti supportano le connessioni della piattaforma standard. Non tutti i connettori che erano supportati in DataStage tradizionale e potenzialmente utilizzati nei flussi DataStage personalizzati sono supportati in IBM Knowledge Catalog.
Requisiti e restrizioni
Comprendere i requisiti e le restrizioni per le connessioni da utilizzare nella cura dei dati e nella valutazione della qualità dei dati.
Autorizzazioni richieste
Gli utenti devono essere autorizzati ad accedere alle connessioni alle origini dati. Per l'importazione dei metadati, l'utente che esegue l'importazione deve disporre dell'autorizzazione SELECT o di un'autorizzazione simile sui database in questione.
Prerequisiti generali
Gli asset di connessione devono esistere nel progetto per le connessioni utilizzate nei seguenti casi:
- Per eseguire l'arricchimento dei metadati, compresa l'analisi avanzata (analisi approfondita delle chiavi primarie, analisi approfondita delle relazioni o profilazione avanzata dei dati) sugli asset in un arricchimento dei metadati
- Per l'esecuzione di regole di qualità dei dati
- Per la creazione di asset di dati basati su query (viste dinamiche)
- Per scrivere l'output dei controlli di qualità dei dati o delle tabelle di distribuzione della frequenza
Formati di dati di origine supportati
In generale, l'importazione dei metadati, l'arricchimento dei metadati e le regole di qualità dei dati supportano i seguenti formati di dati:
Tutti: tabelle da origini dati relazionali e non relazionali
Per Amazon S3, il formato della tabella Delta Lake
Metadata import: qualsiasi formato dalle connessioni basate su file alle origini dati. Per le cartelle di lavoro Microsoft Excel, ogni foglio viene importato come un asset di dati separato. Il nome dell'asset di dati è uguale al nome del foglio Excel.
Arricchimento metadati: tabella: CSV, TSV, Avro, Parquet, Microsoft Excel (per le cartelle di lavoro caricate dal file system locale, viene creato il profilo solo del primo foglio in una cartella di lavoro).
Regole sulla qualità dei dati: Tabellari: Avro, CSV, Parquet, ORC; per le risorse di dati caricate dal file system locale, solo CSV
Importazione del lignaggio
Per importare le informazioni sul lignaggio dei dati, è necessario abilitare la funzione di lignaggio dei dati nell'istanza del servizio IBM Knowledge Catalog. Per ulteriori informazioni, vedere Abilitazione del lineage dei dati.
Supporto del database per le tabelle di output dell'analisi
In generale, le tabelle di output generate durante l'analisi possono essere scritte in questi database:
Se un connettore di database specifico supporta anche le tabelle di output, la colonna Target per tabelle di output mostra un segno di spunta.
Connettori di archiviazione file
Connettore | Metadata import | Arricchimento dei metadati | Regole basate su definizioni |
---|---|---|---|
Amazon S3 | ✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Box | ✓ | ✓ 1 | — |
S3 generico | ✓ | ✓ 1 | — |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage | ✓ | ✓ 1 | ✓ |
Note:
1 L'analisi avanzata non è supportata per questa origine dati.
Connettori di database
Connettore | Metadata import (asset) | Metadata import (lineage) | Arricchimento dei metadati | Regole basate su definizioni | Regole basate su SQL | Asset di dati basati su SQL | Obiettivo per le tabelle di output |
---|---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | — | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | — | ✓ | ✓ | — | — |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
Amazon Redshift | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala con Apache Kudu | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Data Engine | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MongoDB | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | — | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | — | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | — | ✓ | — | — | — | — |
IBM Informix | ✓ | — | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | — | ✓ | ✓ | ✓ | — | — |
Connettore | Metadata import (asset) | Metadata import (lineage) | Arricchimento dei metadati | Regole basate su definizioni | Regole basate su SQL | Asset di dati basati su SQL | Obiettivo per le tabelle di uscita |
MariaDB | ✓ | — | ✓ | — | — | — | — |
Microsoft Azure Databricks7 | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | — | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | — | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData Metodo di autenticazione: nome utente e password |
✓ | — | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Teradata | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Note:
1 L'analisi avanzata non è supportata per questa origine dati.
2 Con Data Virtualization Manager for z/OS, si aggiungono dati e asset COBOL di copybook dai sistemi mainframe ai cataloghi di IBM Cloud Pak for Data. I Copybook sono file che descrivono la struttura dei dati di un programma COBOL. Data Virtualization Manager for z/OS aiuta a creare tabelle e viste virtuali da mappe copybook COBOL. È quindi possibile utilizzare queste tabelle e viste virtuali per importare e catalogare i dati mainframe dai mainframe in IBM Cloud Pak for Data sotto forma di asset di dati e di asset di libri di copia COBOL.
I seguenti tipi di mappe COBOL non vengono importati: ACI, Catalogo, Naturale
Una volta terminata l'importazione, è possibile accedere al catalogo per rivedere le risorse importate, comprese le mappe del libro di testo COBOL, le tabelle virtuali e le viste. Queste risorse possono essere utilizzate come le altre risorse di Cloud Pak for Data.
Per ulteriori informazioni, vedere Aggiungimenti di risorse di libri di testo COBOL.
3 Le descrizioni delle tabelle e delle colonne vengono importate solo se la connessione è configurata con una delle seguenti opzioni di rilevamento dei metadati:
- Nessun sinonimo
- Osservazioni e sinonimi
4 Alcuni oggetti dello schema SFORCE non sono supportati. Vedere Salesforce.com.
5 Per creare tabelle di output di arricchimento dei metadati in Apache Hive a una versione precedente a 3.0.0, è necessario applicare il workaround descritto in Scrittura dell'output di arricchimento dei metadati in una versione di Apache Hive precedente a 3.0.0.
6 Tabelle di output per la profilazione avanzata: Se si esegue nuovamente la profilazione avanzata a intervalli troppo brevi, i risultati potrebbero accumularsi perché i dati non vengono aggiornati abbastanza velocemente in Google BigQuery. attendere almeno 90 minuti prima di eseguire nuovamente la profilazione avanzata con lo stesso target di output. Per ulteriori informazioni, vedere Disponibilità dei dati dello stream. In alternativa, è possibile definire una tabella di output diversa.
7 Hive Metastore e catalogo Unity
8 L'informazione se la risorsa dati è una tabella o una vista non può essere recuperata e quindi non viene mostrata nei risultati dell'arricchimento.
Connettori e altre fonti di dati specifiche per l'importazione di metadati
È possibile importare i metadati delle risorse e del lignaggio da altre fonti di dati.
Origine dati | Metadata import (asset) | Metadata import (lineage) |
---|---|---|
IBM DataStage per Cloud Pak for Data | — | ✓ |
InfoSphere DataStage | — | ✓ |
Microsoft Power BI (Azure) | — | ✓ |
MicroStrategy | — | ✓ |
OpenLineage | — | ✓ |
Tableau | — | ✓ |
Ulteriori informazioni
- Importazione di metadati
- Arricchimento degli asset di dati
- Creazione di regole dalle definizioni di qualità dei dati
- Creazione di regole basate su SQL
Argomento principale Curazione