0 / 0

Connettori supportati per la scoperta, l'arricchimento e la qualità dei dati strutturati

Ultimo aggiornamento: 23 apr 2025
Connettori supportati per la scoperta, l'arricchimento e la qualità dei dati strutturati

È possibile collegarsi a numerose fonti di dati da cui importare i metadati delle risorse e quindi arricchire tali risorse di dati e valutarne la qualità. È possibile creare viste dinamiche dei dati contenuti in queste fonti. È inoltre possibile scrivere l'output delle analisi di qualità dei dati sulle fonti di dati supportate.

Un trattino (-) in una qualsiasi delle colonne indica che l'origine dati non è supportata per questo scopo.

Per impostazione predefinita, le regole di qualità dei dati e i flussi sottostanti di DataStage supportano le connessioni standard della piattaforma. Non tutti i connettori supportati nel tradizionale DataStage e potenzialmente utilizzati nei flussi personalizzati di DataStage sono supportati in IBM Knowledge Catalog.

Requisiti e restrizioni

Comprendere i requisiti e le restrizioni per le connessioni da utilizzare nella cura dei dati e nella valutazione della qualità dei dati.

Autorizzazioni richieste

Gli utenti devono essere autorizzati ad accedere alle connessioni alle fonti di dati. Per l'importazione dei metadati, l'utente che esegue l'importazione deve avere l'autorizzazione SELECT o un'autorizzazione simile sui database in questione.

Prerequisiti generali

Le risorse di connessione devono esistere nel progetto per le connessioni utilizzate in questi casi:

  • Per l'esecuzione dell'arricchimento dei metadati, compresa l'analisi avanzata (analisi approfondita delle chiavi primarie, analisi approfondita delle relazioni o profilazione avanzata dei dati) sugli asset di un arricchimento dei metadati
  • Per l'esecuzione delle regole di qualità dei dati
  • Per creare risorse di dati basate su query (viste dinamiche )
  • Per scrivere l'output dei controlli di qualità dei dati o delle tabelle di distribuzione delle frequenze

Formati di dati di origine supportati

In generale, l'importazione dei metadati, l'arricchimento dei metadati e le regole di qualità dei dati supportano i seguenti formati di dati:

  • Tutti: tabelle da fonti di dati relazionali e non relazionali

    Delta Lake e il formato delle tabelle Iceberg per alcuni connettori di archiviazione file. Affinché le analisi funzionino come previsto, importare file specifici anziché directory di primo livello:

    • Per le tabelle Delta Lake, importare i file _delta_log .
    • Per le tabelle Iceberg, importare i file metadata/version-hint.text .
  • Metadata import : Qualsiasi formato dalle connessioni alle fonti di dati basate su file. Per le cartelle di lavoro di Microsoft Excel, ogni foglio viene importato come asset di dati separato. Il nome della risorsa dati corrisponde al nome del foglio Excel.

  • Arricchimento dei metadati: Tabulare: CSV, TSV, Avro, Parquet, Microsoft Excel (per le cartelle di lavoro caricate dal file system locale, viene profilato solo il primo foglio di una cartella di lavoro)

  • Regole di qualità dei dati: Tabulare: Avro, CSV, Parquet, ORC; per gli asset di dati caricati dal file system locale, solo CSV

Supporto del database per le tabelle di output dell'analisi

In generale, le tabelle di output con i risultati dell'analisi della qualità dei dati eseguita come parte dell'arricchimento dei metadati, della profilazione avanzata o dell'esecuzione di regole di qualità dei dati possono essere scritte in questi database:

Se un connettore di database specifico supporta anche le tabelle di output, la colonna Target for output tables mostra un segno di spunta.

Connettori di archiviazione file

Connettori basati su file supportati
Connettore Metadata import Arricchimento dei metadati Regole basate su definizioni
Amazon S3
Delta Lake tavoli, tavoli Iceberg
Apache HDFS
Box 1
S3 generico
Delta Lake tabelle, tabelle Iceberg
Google Cloud Storage
Delta Lake tavoli, tavoli Iceberg
IBM Cloud Object Storage
IBM Match 360
Microsoft Azure Data Lake Storage
Delta Lake tavoli, tavoli Iceberg

Note:

1 L'analisi avanzata non è supportata per questa fonte di dati.

Connettori di database

Connessioni supportate
Connettore Metadata import Arricchimento dei metadati Regole basate su definizioni Regole basate su SQL Risorse di dati basate su SQL Obiettivo per le tabelle di output
Amazon RDS for MySQL
Amazon RDS for Oracle
Amazon RDS for PostgreSQL
Amazon Redshift 1
Apache Cassandra
Apache Hive 5
Apache Impala con Apache Kudu
Denodo
Dremio
Google BigQuery 6
Greenplum
IBM Cloud Databases for MongoDB
IBM Cloud Databases for MySQL
IBM Cloud Databases for PostgreSQL
IBM Data Virtualization
IBM Data Virtualization Manager for z/OS 2
IBM Db2
IBM Db2 Big SQL
IBM Db2 for z/OS
IBM Db2 on Cloud
IBM Db2 Warehouse
IBM Informix
IBM Netezza Performance Server
Connettore Metadata import Arricchimento dei metadati Regole basate su definizioni Regole basate su SQL Risorse di dati basate su SQL Obiettivo per le tabelle di output
MariaDB
Microsoft Azure Databricks7
Microsoft Azure SQL Database
Microsoft SQL Server
MongoDB
MySQL
Oracle 3
PostgreSQL
Salesforce.com 1 4
SAP ASE 1
SAP OData
Metodo di autenticazione: nome utente e password
8
SingleStoreDB
Snowflake
Teradata

Note:

1 L'analisi avanzata non è supportata per questa fonte di dati.

2 Con Data Virtualization Manager for z/OS, si aggiungono dati e COBOL risorse di copybook dai sistemi mainframe ai cataloghi di IBM Cloud Pak for Data. I Copybook sono file che descrivono la struttura dei dati di un programma COBOL. Data Virtualization Manager for z/OS consente di creare tabelle e viste virtuali dalle mappe di COBOL. È quindi possibile utilizzare queste tabelle e viste virtuali per importare e catalogare i dati dei mainframe in IBM Cloud Pak for Data sotto forma di asset di dati e asset di copybook COBOL.

I seguenti tipi di mappe del libretto COBOL non vengono importati: ACI, Catalogo, Naturale

Restrizione: Non è possibile importare i copybook COBOL di dimensioni superiori a 1 MB.

Al termine dell'importazione, è possibile accedere al catalogo per esaminare le risorse importate, comprese le mappe del libro di testo COBOL, le tavole virtuali e le viste. È possibile utilizzare queste risorse nello stesso modo in cui si utilizzano le altre risorse in Cloud Pak for Data.

Per ulteriori informazioni, vedere Aggiunta di risorse del Copybook COBOL.

3 Le descrizioni delle tabelle e delle colonne vengono importate solo se la connessione è configurata con una delle seguenti opzioni di rilevamento dei metadati :

  • Nessun sinonimo
  • Osservazioni e sinonimi

4 Alcuni oggetti dello schema SFORCE non sono supportati. Vedi Salesforce.com.

5 Per creare tabelle di output di arricchimento dei metadati in Apache Hive in una versione precedente a 3.0.0, è necessario applicare il workaround descritto in Scrivere l'output di arricchimento dei metadati in una versione di Apache Hive precedente a 3.0.0.

6 Tabelle di output per il profiling avanzato: Se si esegue nuovamente la profilazione avanzata a intervalli troppo brevi, i risultati potrebbero accumularsi perché i dati non vengono aggiornati abbastanza velocemente in Google BigQuery. attendere almeno 90 minuti prima di rieseguire la profilazione avanzata con lo stesso target di output. Per ulteriori informazioni, vedere Disponibilità dei dati del flusso. In alternativa, è possibile definire una tabella di output diversa.

7 Hive Metastore e catalogo Unity

8 L'informazione se la risorsa dati è una tabella o una vista non può essere recuperata e quindi non viene mostrata nei risultati dell'arricchimento.

Ulteriori informazioni

Argomento principale: Connettori supportati per la curatela e la qualità dei dati