Connettori supportati per la scoperta, l'arricchimento e la qualità dei dati strutturati
È possibile collegarsi a numerose fonti di dati da cui importare i metadati delle risorse e quindi arricchire tali risorse di dati e valutarne la qualità. È possibile creare viste dinamiche dei dati contenuti in queste fonti. È inoltre possibile scrivere l'output delle analisi di qualità dei dati sulle fonti di dati supportate.
Un trattino (-) in una qualsiasi delle colonne indica che l'origine dati non è supportata per questo scopo.
Per impostazione predefinita, le regole di qualità dei dati e i flussi sottostanti di DataStage supportano le connessioni standard della piattaforma. Non tutti i connettori supportati nel tradizionale DataStage e potenzialmente utilizzati nei flussi personalizzati di DataStage sono supportati in IBM Knowledge Catalog.
Requisiti e restrizioni
Comprendere i requisiti e le restrizioni per le connessioni da utilizzare nella cura dei dati e nella valutazione della qualità dei dati.
Autorizzazioni richieste
Gli utenti devono essere autorizzati ad accedere alle connessioni alle fonti di dati. Per l'importazione dei metadati, l'utente che esegue l'importazione deve avere l'autorizzazione SELECT o un'autorizzazione simile sui database in questione.
Prerequisiti generali
Le risorse di connessione devono esistere nel progetto per le connessioni utilizzate in questi casi:
- Per l'esecuzione dell'arricchimento dei metadati, compresa l'analisi avanzata (analisi approfondita delle chiavi primarie, analisi approfondita delle relazioni o profilazione avanzata dei dati) sugli asset di un arricchimento dei metadati
- Per l'esecuzione delle regole di qualità dei dati
- Per creare risorse di dati basate su query (viste dinamiche )
- Per scrivere l'output dei controlli di qualità dei dati o delle tabelle di distribuzione delle frequenze
Formati di dati di origine supportati
In generale, l'importazione dei metadati, l'arricchimento dei metadati e le regole di qualità dei dati supportano i seguenti formati di dati:
Tutti: tabelle da fonti di dati relazionali e non relazionali
Delta Lake e il formato delle tabelle Iceberg per alcuni connettori di archiviazione file. Affinché le analisi funzionino come previsto, importare file specifici anziché directory di primo livello:
- Per le tabelle Delta Lake, importare i file
_delta_log
. - Per le tabelle Iceberg, importare i file
metadata/version-hint.text
.
- Per le tabelle Delta Lake, importare i file
Metadata import : Qualsiasi formato dalle connessioni alle fonti di dati basate su file. Per le cartelle di lavoro di Microsoft Excel, ogni foglio viene importato come asset di dati separato. Il nome della risorsa dati corrisponde al nome del foglio Excel.
Arricchimento dei metadati: Tabulare: CSV, TSV, Avro, Parquet, Microsoft Excel (per le cartelle di lavoro caricate dal file system locale, viene profilato solo il primo foglio di una cartella di lavoro)
Regole di qualità dei dati: Tabulare: Avro, CSV, Parquet, ORC; per gli asset di dati caricati dal file system locale, solo CSV
Supporto del database per le tabelle di output dell'analisi
In generale, le tabelle di output con i risultati dell'analisi della qualità dei dati eseguita come parte dell'arricchimento dei metadati, della profilazione avanzata o dell'esecuzione di regole di qualità dei dati possono essere scritte in questi database:
Se un connettore di database specifico supporta anche le tabelle di output, la colonna Target for output tables mostra un segno di spunta.
Connettori di archiviazione file
Connettore | Metadata import | Arricchimento dei metadati | Regole basate su definizioni |
---|---|---|---|
Amazon S3 Delta Lake tavoli, tavoli Iceberg |
✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Box | ✓ | ✓ 1 | — |
S3 generico Delta Lake tabelle, tabelle Iceberg |
✓ | ✓ | ✓ |
Google Cloud Storage Delta Lake tavoli, tavoli Iceberg |
✓ | ✓ | ✓ |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage Delta Lake tavoli, tavoli Iceberg |
✓ | ✓ | ✓ |
Note:
1 L'analisi avanzata non è supportata per questa fonte di dati.
Connettori di database
Connettore | Metadata import | Arricchimento dei metadati | Regole basate su definizioni | Regole basate su SQL | Risorse di dati basate su SQL | Obiettivo per le tabelle di output |
---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Amazon Redshift | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala con Apache Kudu | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Denodo |
✓ | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Databases for MongoDB | ✓ | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | ✓ | — | — | — | — |
IBM Informix | ✓ | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | ✓ | ✓ | ✓ | — | — |
Connettore | Metadata import | Arricchimento dei metadati | Regole basate su definizioni | Regole basate su SQL | Risorse di dati basate su SQL | Obiettivo per le tabelle di output |
MariaDB | ✓ | ✓ | — | — | — | — |
Microsoft Azure Databricks7 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData Metodo di autenticazione: nome utente e password |
✓ | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Teradata | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Note:
1 L'analisi avanzata non è supportata per questa fonte di dati.
2 Con Data Virtualization Manager for z/OS, si aggiungono dati e COBOL risorse di copybook dai sistemi mainframe ai cataloghi di IBM Cloud Pak for Data. I Copybook sono file che descrivono la struttura dei dati di un programma COBOL. Data Virtualization Manager for z/OS consente di creare tabelle e viste virtuali dalle mappe di COBOL. È quindi possibile utilizzare queste tabelle e viste virtuali per importare e catalogare i dati dei mainframe in IBM Cloud Pak for Data sotto forma di asset di dati e asset di copybook COBOL.
I seguenti tipi di mappe del libretto COBOL non vengono importati: ACI, Catalogo, Naturale
Al termine dell'importazione, è possibile accedere al catalogo per esaminare le risorse importate, comprese le mappe del libro di testo COBOL, le tavole virtuali e le viste. È possibile utilizzare queste risorse nello stesso modo in cui si utilizzano le altre risorse in Cloud Pak for Data.
Per ulteriori informazioni, vedere Aggiunta di risorse del Copybook COBOL.
3 Le descrizioni delle tabelle e delle colonne vengono importate solo se la connessione è configurata con una delle seguenti opzioni di rilevamento dei metadati :
- Nessun sinonimo
- Osservazioni e sinonimi
4 Alcuni oggetti dello schema SFORCE non sono supportati. Vedi Salesforce.com.
5 Per creare tabelle di output di arricchimento dei metadati in Apache Hive in una versione precedente a 3.0.0, è necessario applicare il workaround descritto in Scrivere l'output di arricchimento dei metadati in una versione di Apache Hive precedente a 3.0.0.
6 Tabelle di output per il profiling avanzato: Se si esegue nuovamente la profilazione avanzata a intervalli troppo brevi, i risultati potrebbero accumularsi perché i dati non vengono aggiornati abbastanza velocemente in Google BigQuery. attendere almeno 90 minuti prima di rieseguire la profilazione avanzata con lo stesso target di output. Per ulteriori informazioni, vedere Disponibilità dei dati del flusso. In alternativa, è possibile definire una tabella di output diversa.
7 Hive Metastore e catalogo Unity
8 L'informazione se la risorsa dati è una tabella o una vista non può essere recuperata e quindi non viene mostrata nei risultati dell'arricchimento.
Ulteriori informazioni
- Importazione di metadati
- Arricchire il vostro patrimonio di dati
- Creare asset di dati utilizzando query SQL
- Creare regole dalle definizioni di qualità dei dati
- Creazione di regole basate su SQL
Argomento principale: Connettori supportati per la curatela e la qualità dei dati