0 / 0
Torna alla versione inglese della documentazione
Origini dati supportate per la cura e la qualità dei dati
Ultimo aggiornamento: 13 dic 2024
Origini dati supportate per la cura e la qualità dei dati

È possibile connettersi a molte fonti di dati da cui importare metadati, su cui eseguire regole di arricchimento dei metadati o di qualità dei dati, da utilizzare per creare viste dinamiche e su cui scrivere l'output delle regole di qualità dei dati.

Un trattino (-) in una qualsiasi delle colonne indica che l'origine dati non è supportata per questo scopo.

Per impostazione predefinita, le regole di qualità dei dati e i flussi DataStage sottostanti supportano le connessioni della piattaforma standard. Non tutti i connettori che erano supportati in DataStage tradizionale e potenzialmente utilizzati nei flussi DataStage personalizzati sono supportati in IBM Knowledge Catalog.

Requisiti e restrizioni

Comprendere i requisiti e le restrizioni per le connessioni da utilizzare nella cura dei dati e nella valutazione della qualità dei dati.

Autorizzazioni richieste

Gli utenti devono essere autorizzati ad accedere alle connessioni alle origini dati. Per l'importazione dei metadati, l'utente che esegue l'importazione deve disporre dell'autorizzazione SELECT o di un'autorizzazione simile sui database in questione.

Prerequisiti generali

Gli asset di connessione devono esistere nel progetto per le connessioni utilizzate nei seguenti casi:

  • Per eseguire l'arricchimento dei metadati, compresa l'analisi avanzata (analisi approfondita delle chiavi primarie, analisi approfondita delle relazioni o profilazione avanzata dei dati) sugli asset in un arricchimento dei metadati
  • Per l'esecuzione di regole di qualità dei dati
  • Per la creazione di asset di dati basati su query (viste dinamiche)
  • Per scrivere l'output dei controlli di qualità dei dati o delle tabelle di distribuzione della frequenza

Formati di dati di origine supportati

In generale, l'importazione dei metadati, l'arricchimento dei metadati e le regole di qualità dei dati supportano i seguenti formati di dati:

  • Tutti: tabelle da origini dati relazionali e non relazionali

    Per Amazon S3, il formato della tabella Delta Lake

  • Metadata import: qualsiasi formato dalle connessioni basate su file alle origini dati. Per le cartelle di lavoro Microsoft Excel, ogni foglio viene importato come un asset di dati separato. Il nome dell'asset di dati è uguale al nome del foglio Excel.

  • Arricchimento metadati: tabella: CSV, TSV, Avro, Parquet, Microsoft Excel (per le cartelle di lavoro caricate dal file system locale, viene creato il profilo solo del primo foglio in una cartella di lavoro).

  • Regole sulla qualità dei dati: Tabellari: Avro, CSV, Parquet, ORC; per le risorse di dati caricate dal file system locale, solo CSV

Importazione del lignaggio

Per importare le informazioni sul lignaggio dei dati, è necessario abilitare la funzione di lignaggio dei dati nell'istanza del servizio IBM Knowledge Catalog. Per ulteriori informazioni, vedere Abilitazione del lineage dei dati.

Supporto del database per le tabelle di output dell'analisi

In generale, le tabelle di output generate durante l'analisi possono essere scritte in questi database:

Se un connettore di database specifico supporta anche le tabelle di output, la colonna Target per tabelle di output mostra un segno di spunta.

Connettori di archiviazione file

Connettori basati su file supportati
Connettore Metadata import Arricchimento dei metadati Regole basate su definizioni
Amazon S3
Apache HDFS
Box 1
S3 generico 1
IBM Cloud Object Storage
IBM Match 360
Microsoft Azure Data Lake Storage 1

Note:

1 L'analisi avanzata non è supportata per questa origine dati.

Connettori di database

Connessioni supportate
Connettore Metadata import (asset) Metadata import (lineage) Arricchimento dei metadati Regole basate su definizioni Regole basate su SQL Asset di dati basati su SQL Obiettivo per le tabelle di output
Amazon RDS for MySQL
Amazon RDS for Oracle
Amazon RDS for PostgreSQL
Amazon Redshift 1
Apache Cassandra
Apache Hive 5
Apache Impala con Apache Kudu
Dremio
Google BigQuery 6
Greenplum
IBM Cloud Data Engine
IBM Cloud Databases for MongoDB
IBM Cloud Databases for MySQL
IBM Cloud Databases for PostgreSQL
IBM Data Virtualization
IBM Data Virtualization Manager for z/OS 2
IBM Db2
IBM Db2 Big SQL
IBM Db2 for z/OS
IBM Db2 on Cloud
IBM Db2 Warehouse
IBM Informix
IBM Netezza Performance Server
Connettore Metadata import (asset) Metadata import (lineage) Arricchimento dei metadati Regole basate su definizioni Regole basate su SQL Asset di dati basati su SQL Obiettivo per le tabelle di uscita
MariaDB
Microsoft Azure Databricks7
Microsoft Azure SQL Database 1
Microsoft SQL Server
MongoDB
MySQL
Oracle 3
PostgreSQL
Salesforce.com 1 4
SAP ASE 1
SAP OData
Metodo di autenticazione: nome utente e password
8
SingleStoreDB
Snowflake 1
Teradata

Note:

1 L'analisi avanzata non è supportata per questa origine dati.

2 Con Data Virtualization Manager for z/OS, si aggiungono dati e asset COBOL di copybook dai sistemi mainframe ai cataloghi di IBM Cloud Pak for Data. I Copybook sono file che descrivono la struttura dei dati di un programma COBOL. Data Virtualization Manager for z/OS aiuta a creare tabelle e viste virtuali da mappe copybook COBOL. È quindi possibile utilizzare queste tabelle e viste virtuali per importare e catalogare i dati mainframe dai mainframe in IBM Cloud Pak for Data sotto forma di asset di dati e di asset di libri di copia COBOL.

I seguenti tipi di mappe COBOL non vengono importati: ACI, Catalogo, Naturale

Restrizione: Non è possibile importare COBOL copybook di dimensioni superiori a 1 MB.

Una volta terminata l'importazione, è possibile accedere al catalogo per rivedere le risorse importate, comprese le mappe del libro di testo COBOL, le tabelle virtuali e le viste. Queste risorse possono essere utilizzate come le altre risorse di Cloud Pak for Data.

Per ulteriori informazioni, vedere Aggiungimenti di risorse di libri di testo COBOL.

3 Le descrizioni delle tabelle e delle colonne vengono importate solo se la connessione è configurata con una delle seguenti opzioni di rilevamento dei metadati:

  • Nessun sinonimo
  • Osservazioni e sinonimi

4 Alcuni oggetti dello schema SFORCE non sono supportati. Vedere Salesforce.com.

5 Per creare tabelle di output di arricchimento dei metadati in Apache Hive a una versione precedente a 3.0.0, è necessario applicare il workaround descritto in Scrittura dell'output di arricchimento dei metadati in una versione di Apache Hive precedente a 3.0.0.

6 Tabelle di output per la profilazione avanzata: Se si esegue nuovamente la profilazione avanzata a intervalli troppo brevi, i risultati potrebbero accumularsi perché i dati non vengono aggiornati abbastanza velocemente in Google BigQuery. attendere almeno 90 minuti prima di eseguire nuovamente la profilazione avanzata con lo stesso target di output. Per ulteriori informazioni, vedere Disponibilità dei dati dello stream. In alternativa, è possibile definire una tabella di output diversa.

7 Hive Metastore e catalogo Unity

8 L'informazione se la risorsa dati è una tabella o una vista non può essere recuperata e quindi non viene mostrata nei risultati dell'arricchimento.

Connettori e altre fonti di dati specifiche per l'importazione di metadati

È possibile importare i metadati delle risorse e del lignaggio da altre fonti di dati.

Origine dati Metadata import (asset) Metadata import (lineage)
IBM DataStage per Cloud Pak for Data
InfoSphere DataStage
Microsoft Power BI (Azure)
MicroStrategy
OpenLineage
Tableau

Ulteriori informazioni

Argomento principale Curazione

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni