Per ottenere utili risultati di arricchimento metadati, configurare le impostazioni predefinite per tutti gli arricchimenti di metadati in un progetto. Le impostazioni predefinite consentono inoltre di garantire un utilizzo coerente delle opzioni di arricchimento.
Le modifiche alle impostazioni di soglia o ai metodi di assegnazione dei termini selezionati vengono applicate ai nuovi arricchimenti di metadati e ai lavori di arricchimento che vengono eseguiti dopo la modifica delle impostazioni. Le modifiche all'insieme di categorie vengono applicate solo ai nuovi arricchimenti.
- Autorizzazioni richieste
- Per configurare le impostazioni predefinite di arricchimento metadati, devi avere il ruolo Admin nel progetto. Qualsiasi collaboratore di progetto può visualizzarne le impostazioni.
È possibile accedere alle impostazioni predefinite in uno dei seguenti modi:
- All'interno di un asset di arricchimento dei metadati esistente, fai clic su Impostazioni predefinite.
- Nella pagina Manage del progetto, vai a Tools> Metadata enrichment.
Modificare le impostazioni come richiesto. Le modifiche vengono salvate automaticamente. Per alcune impostazioni, è possibile ripristinare i valori predefiniti definiti dal sistema in qualsiasi momento.
Configurare le impostazioni predefinite per queste funzioni:
- Creazione dei profili e assegnazione dei termini
- Impostazioni di creazione profili avanzate
- Analisi della qualità di base
- Output di qualità dei dati
- Analisi relazioni chiave
È anche possibile creare, aggiornare o richiamare le impostazioni di arricchimento con le API invece che con l'interfaccia utente. I collegamenti alle API sono elencati nella sezione Ulteriori informazioni .
Creazione dei profili e assegnazione dei termini
Impostare le soglie per la creazione profili e l'assegnazione dei termini di business, selezionare i metodi per l'assegnazione dei termini e preselezionare le categorie. In qualsiasi momento, è possibile ripristinare il valore predefinito per qualsiasi impostazione di soglia modificata.
Ammissibilità null
I campi di dati in una colonna o in un file flat possono essere annullati se non possono avere alcun valore.
- Soglia null
- Determina se un campo colonna o file flat consente valori null. Se una colonna o un file flat contiene campi senza valori, la percentuale di campi vuoti trovati viene confrontata con la soglia impostata. Se è uguale o superiore alla soglia di annullabilità, il campo consente valori null. Se i valori null non esistono nel campo dati o la percentuale di frequenza è inferiore alla soglia, il campo dati deve avere un valore. L'impostazione predefinita è 5%.
Cardinalità
La cardinalità di una colonna può essere univoca, costante o non vincolata. La percentuale di valori distinti univoci e la percentuale del valore costante più frequente rilevato vengono confrontati con le soglie impostate. Il tipo di cardinalità è univoco o costante se la rispettiva percentuale è uguale o superiore alla percentuale di soglia. Altrimenti, è non vincolato.
- Soglia di univocità
- Determina se un campo dati contiene valori univoci. Una colonna o un file flat viene considerato univoco se ha una percentuale di valori distinti uguale o superiore alla soglia impostata. Il valore predefinito è il 95%.
- Soglia costante
- Determina se una colonna o un file flat contiene valori costanti. Si determina che un campo è costante se ha un singolo valore distinto con una percentuale di frequenza uguale o superiore alla soglia costante impostata. Il valore predefinito è 99%.
Assegnazione delle classi dati
Le classi di dati incluse nell'arricchimento dei metadati vengono automaticamente assegnate a una colonna solo durante la produzione profilo. Le assegnazioni termine non hanno un impatto sulle assegnazioni della classe dati. Le soglie determinano il livello di confidenza minimo per una classe di dati da assegnare o consigliare. La soglia di assegnazione deve essere superiore alla soglia di suggerimento.
Le classificazioni correlate possono anche essere assegnate automaticamente per le classi di dati assegnate automaticamente.
È possibile controllare questo comportamento attivando o disattivando l'opzione di assegnazione della classificazione per le classi di dati. Vedere Assegnazione della classificazione.
- Soglia di assegnazione
Determina la percentuale minima di valori per i quali la classe di dati deve corrispondere ai criteri da assegnare automaticamente a una colonna. L'impostazione predefinita è 75%. Questa impostazione può essere sovrascritta da una soglia definita direttamente sulla classe dati.
Le seguenti classi di dati predefinite hanno una soglia predefinita impostata:
- Città (50%)
- Nome persona (50%)
- Nome (50%)
- Secondo nome (50%)
- Cognome (50%)
- Nome organizzazione (60%)
Consultare la sezione Aggiunta di corrispondenze di dati alle classi di dati.
- Soglia consiglio
Determina la percentuale minima di valori per cui la classe di dati deve soddisfare i criteri da suggerire per una colonna. L'impostazione predefinita è 25%.
Chiavi primarie
Una chiave primaria può essere costituita da una o più colonne e identifica in modo univoco ogni record in una tabella. Ogni tabella può avere una sola chiave primaria.
- Soglia consiglio
- Definisce la confidenza minima per una colonna o una combinazione di colonne da suggerire come chiave primaria. L'impostazione predefinita è 80%.
Nome visualizzato
Sulla base di un glossario incorporato e delle abbreviazioni dei termini aziendali esistenti nelle categorie selezionate per l'arricchimento, viene utilizzato il fuzzy matching per produrre nomi semantici per gli asset di dati e le colonne che contengono come nomi alternativi più descrittivi rispetto ai nomi di origine. Questi nomi alternativi possono essere assegnati o suggeriti automaticamente. Le soglie determinano il livello minimo di confidenza affinché un nome semantico venga assegnato o suggerito come nome visualizzato. La soglia di assegnazione deve essere superiore alla soglia di suggerimento.
- Soglia di assegnazione
- Determina la confidenza che deve essere superata affinché un nome di visualizzazione venga assegnato automaticamente a una risorsa o colonna di dati. L'impostazione predefinita è 90%.
- Soglia consiglio
- Determina la confidenza che deve essere superata perché venga suggerito un nome di visualizzazione per una risorsa o una colonna di dati. L'impostazione predefinita è 75%.
Descrizione generata da AI
L'intelligenza artificiale generativa può produrre descrizioni per interi asset di dati e per le colonne contenute in un asset di dati. Un modello " granite.8b
considera il contesto degli asset e delle colonne per fornire descrizioni significative. Queste descrizioni possono essere assegnate o suggerite automaticamente. Le soglie determinano il livello di confidenza minimo per una descrizione da assegnare o consigliare. La soglia di assegnazione deve essere superiore alla soglia di suggerimento.
- Soglia di assegnazione
- Determina la confidenza che deve essere superata affinché una descrizione generata venga assegnata automaticamente a un asset di dati o a una colonna. L'impostazione predefinita è 100%.
- Soglia consiglio
- Determina la confidenza che deve essere superata affinché una descrizione generata venga suggerita per un asset o una colonna di dati. L'impostazione predefinita è 75%.
Assegnazione dei termini
I termini di business inclusi nell'arricchimento dei metadati (tramite la selezione della categoria) possono essere automaticamente assegnati o suggeriti per una colonna. Le soglie determinano il livello di confidenza minimo per un termine da assegnare o consigliare. La soglia di assegnazione deve essere superiore alla soglia di suggerimento. Tenere presente che le assegnazioni termine non influenzano le assegnazioni della classe dati. Se un termine associato a una classe di dati viene assegnato a una colonna da un modello ML o tramite la corrispondenza del nome, anche la classe di dati correlata non viene assegnata automaticamente.
Le classificazioni correlate possono essere assegnate automaticamente anche per i termini assegnati automaticamente.
È possibile controllare questo comportamento abilitando o disabilitando l'opzione di assegnazione della classificazione per i termini. Vedere Assegnazione della classificazione.
- Soglia di assegnazione
Determina la percentuale di valori corrispondenti che devono essere superati per un termine da assegnare automaticamente a un asset di dati o a una colonna. L'impostazione predefinita è 90%.
- Soglia consiglio
Determina la percentuale di valori corrispondenti che devono essere superati per un termine da suggerire per un asset di dati o una colonna. L'impostazione predefinita è 75%.
Consiglio: Se l'assegnazione semantica dei termini è selezionata come uno dei metodi di assegnazione dei termini, considerate la possibilità di abbassare questa soglia a un valore compreso nell'intervallo 65%-70%. Altrimenti, i termini restituiti da questo metodo potrebbero non essere presi in considerazione per l'assegnazione dei termini, perché i punteggi di confidenza sono solitamente inferiori a quelli degli altri metodi.
Determinare quale metodo di assegnazione termine viene utilizzato nel progetto per generare assegnazioni e suggerimenti. Le assegnazioni e i suggerimenti vengono effettuati in base al punteggio di affidabilità più alto restituito da uno dei metodi. Selezionare almeno uno dei seguenti metodi:
Machine learning: un modello di machine learning viene utilizzato per assegnare termini. È possibile definire per ciascun progetto se questo modello viene addestrato con gli asset del progetto o con gli asset di un catalogo a scelta.
Assegnazioni basate sulla classe di dati: i termini vengono assegnati in base all'assegnazione della classe di dati per una colonna. Il collegamento appropriato tra le classi di dati e i termini è un prerequisito per i risultati di qualità.
Corrispondenza nome: i termini vengono assegnati in base alla somiglianza tra un termine e il nome dell'asset o della colonna.
Assegnazione di termini semantici: i termini di business specifici del dominio vengono assegnati e suggeriti utilizzando il modello
slate.30m.semantic-automation.c2c
. Il modello prende in considerazione i nomi e le descrizioni degli asset e delle colonne e mette in corrispondenza semanticamente i termini con tali metadati. Pertanto, i termini possono essere assegnati anche se non sono corrispondenze esatte.Suggerimento: I punteggi di confidenza di questo metodo sono solitamente inferiori a quelli degli altri metodi. Pertanto, abbassare la soglia di suggerimento a un valore compreso nell'intervallo 65%-70% per far sì che i termini restituiti dal metodo di assegnazione dei termini semantici vengano considerati per l'assegnazione dei termini.
Per impostazione predefinita, i punteggi di confidenza restituiti dai metodi di assegnazione dei termini selezionati vengono adeguati in base ai rifiuti dei termini precedenti, il che influenza il punteggio di confidenza generale.
Se non si desidera che i rifiuti di termini influiscano sul punteggio di confidenza, è possibile disattivare questa opzione.
È possibile abilitare o disabilitare l'opzione indipendentemente dai metodi di assegnazione dei termini selezionati. l'ambito di addestramento impostato si applica al modello per l'assegnazione del termine e al modello per l'adeguamento del punteggio di affidabilità.
Utilizzare metodi individuali per la verifica e la valutazione delle assegnazioni di termini, ad esempio, quando si dispone di una grande serie di classi di dati personalizzati. In questo modo, puoi anche trovare le impostazioni di soglia corrette per il tuo progetto.
Per ulteriori informazioni, vedere Assegnazione automatica dei termini.
Assegnazione della classificazione
Determinare se le classificazioni vengono assegnate anche quando una classe di dati o un termine correlato viene assegnato automaticamente a una risorsa di dati o a una colonna. È possibile configurare questo aspetto individualmente per le classi di dati e i termini.
Per i progetti creati prima del 23 agosto 2024, l'assegnazione automatica della classificazione è disattivata per impostazione predefinita.
Categorie
È possibile limitare la serie di categorie da cui gli utenti possono selezionare quando creano nuovi arricchimenti di metadati alle categorie che si allineano con lo scopo del progetto. Tieni presente che questa selezione non determina quali categorie sono effettivamente utilizzate in un arricchimento dei metadati. Preselezionare le categorie rilevanti per il progetto. Le categorie selezionate determinano i termini di business e le classi di dati che possono essere utilizzati per la creazione profili e l'assegnazione automatica dei termini. Questa selezione non limita le opzioni degli utenti quando si assegnano manualmente le classi di dati o i termini. Per le assegnazioni manuali, gli utenti possono scegliere classi di dati o termini di business da qualsiasi categoria a cui hanno accesso.
Qualsiasi modifica a questa serie si riflette nei nuovi arricchimenti di metadati e quando modifichi un arricchimento di metadati esistente.
Impostazioni di creazione profili avanzate
Queste impostazioni si applicano alla creazione di profili di dati avanzati se un utente abilita l'opzione Output esterno e possono essere sovrascritte per ogni singola esecuzione.
Determinare se vengono catturati tutti i valori distinti o un numero massimo dei valori distinti più frequenti per ogni colonna. L'impostazione predefinita è quella di catturare i 1.000 valori distinti più frequenti.
Impostare il percorso di output predefinito per la memorizzazione dei valori acquisiti:
- Selezionare una connessione.
- A seconda della connessione selezionata, selezionare uno schema e una tabella, oppure selezionare un catalogo, uno schema e una tabella. È possibile scegliere tra cataloghi, schemi e tabelle esistenti. È anche possibile creare una nuova tabella in uno schema esistente.
Per informazioni su quali origini dati sono supportate come destinazione di output, consultare la colonna Tabelle di output in Origini dati supportate. I nomi di schema e tabella devono seguire questa convenzione:
- Il primo carattere del nome deve essere un carattere alfabetico.
- Il resto del nome può essere costituito da caratteri alfabetici, numerici o di sottolineatura.
- Il nome non deve contenere spazi.
Analisi della qualità di base
Impostare la soglia di qualità dei dati e selezionare i controlli di qualità dei dati da applicare quando gli utenti eseguono analisi di qualità come parte dell'arricchimento dei metadati.
- Soglia di qualità dei dati
- Determina il punteggio di qualità dei dati minimo richiesto per un asset in modo che sia di qualità sufficiente o buona. I punteggi di qualità dei dati che sono al di sotto della soglia specificata sono contrassegnati con un punto rosso nei risultati dell'arricchimento. I punteggi di qualità dei dati che sono uguali o superano la soglia specificata sono contrassegnati in verde.
- Controlli di qualità dei dati
- Selezionare i controlli di qualità dei dati predefiniti che si desidera applicare quando si eseguono analisi di qualità come parte dell'arricchimento dei metadati. Selezionare almeno un controllo. Ogni esecuzione di un arricchimento di metadati configurato con l'opzione Esegui analisi di qualità dei dati di base contribuisce ai punteggi della dimensione della qualità dei dati collegati ai controlli selezionati. Per ulteriori informazioni, consultare Controlli di qualità dei dati predefiniti.
Output di qualità dei dati
Impostare l'ubicazione di output predefinita per la memorizzazione delle eccezioni di qualità dei dati e determinare il numero massimo di record di eccezione per controllo di qualità dei dati. La scrittura di eccezioni di qualità dei dati in una tabella di database deve essere abilitata nell'asset di arricchimento dei metadati.
- Numero massimo di record di output di eccezione
Determinare quanti problemi per colonna vengono scritti nella tabella di output al massimo per ogni controllo di qualità dei dati. L'impostazione predefinita è 100.
- Ubicazione dell'output
Impostare le tabelle di output predefinite per la memorizzazione delle eccezioni di qualità dei dati:
- Selezionare una connessione.
- A seconda della connessione selezionata, selezionare uno schema e una tabella, oppure selezionare un catalogo, uno schema e una tabella per la memorizzazione delle eccezioni.
- Facoltativamente, selezionare una tabella per memorizzare le righe intere in cui sono stati trovati i problemi (registrazioni di eccezioni). È possibile selezionare una tabella esistente dallo schema in cui viene creata la tabella delle eccezioni o creare una nuova tabella in quello schema.
È possibile selezionare da schemi e tabelle esistenti o creare nuove tabelle in uno schema esistente. Per informazioni su quali origini dati sono supportate come destinazione di output, consultare la colonna Tabelle di output in Origini dati supportate. I nomi di schema e tabella devono seguire questa convenzione:
- Il primo carattere del nome deve essere un carattere alfabetico.
- Il resto del nome può essere costituito da caratteri alfabetici, numerici o di sottolineatura.
- Il nome non deve contenere spazi.
Per creare una nuova tabella per l'output, immettere un nome invece di selezionare dalle tabelle disponibili. Tenere presente che il nome della tabella non deve contenere caratteri speciali.
Per memorizzare solo i problemi di qualità, viene creata una nuova tabella con le seguenti definizioni di colonna:
asset_id VARCHAR(40), issue_type VARCHAR(64), column1 VARCHAR(128), value1 VARCHAR(64), column2 VARCHAR(128), value2 VARCHAR(64)
Per memorizzare i problemi di qualità e i record di eccezioni, viene creata una nuova tabella per i problemi di qualità con queste definizioni di colonna:
asset_id VARCHAR(40), issue_type VARCHAR(64), column VARCHAR(128), row_id VARCHAR(64)
Viene creata una nuova tabella per la memorizzazione dei record di eccezione con queste definizioni di colonna:
asset_id VARCHAR(40), row_id VARCHAR(64), row_data CLOB
Se si seleziona una tabella esistente per uno dei tipi di output, la tabella selezionata deve avere la struttura appropriata per l'output previsto.
Se la connessione è bloccata, viene richiesto di immettere le proprie credenziali personali. Questo è un passo da eseguire una sola volta che sblocca in modo permanente la connessione.
Relazioni chiave
Una relazione chiave è costituita da una chiave primaria ed esterna e definisce una relazione tra due asset di dati in un database relazionale.
- Soglia consiglio
Definisce la confidenza minima richiesta per le relazioni tra chiavi primarie ed esterne da suggerire. L'impostazione predefinita è 80%.
Questa soglia viene applicata quando si esegue un'analisi di base della relazione chiave; non viene applicata all'analisi approfondita della relazione chiave o all'analisi della sovrapposizione. È possibile impostare soglie di suggerimento per questi tipi di analisi per ogni singola esecuzione. Consultare Identificazione delle relazioni.
Per assegnare automaticamente le relazioni, selezionare Assegna automaticamente opzione e impostare una soglia di assegnazione.
- Soglia di assegnazione
Definisce la confidenza minima richiesta affinché le relazioni tra chiavi primarie ed esterne vengano assegnate automaticamente. L'impostazione predefinita è 90%.
Quando una relazione di chiave viene assegnata automaticamente, viene assegnata automaticamente anche la chiave primaria corrispondente in un asset principale. Tuttavia, a un asset di dati non può essere assegnata più di una chiave primaria. Pertanto, è possibile assegnare una sola relazione se per una risorsa vengono rilevate più relazioni chiave con chiavi primarie diverse. Viene assegnato il candidato alla relazione con il punteggio di confidenza più alto. Questo punteggio di confidenza viene calcolato in base al punteggio di confidenza dell'analisi della chiave primaria. Se tutti i candidati alla relazione hanno lo stesso punteggio di confidenza, nessuno di essi viene assegnato.
Queste impostazioni vengono applicate quando si esegue un'analisi delle relazioni chiave di base. Non vengono applicati all'analisi approfondita delle relazioni chiave o all'analisi delle sovrapposizioni. Per questi tipi di analisi è possibile abilitare l'assegnazione automatica delle relazioni e impostare una soglia di assegnazione per ogni singola esecuzione. Consultare Identificazione delle relazioni.
Ulteriori informazioni
- Aggiunta di corrispondenza dati alle classi di dati
- Assegnazione automatica termine
- Identificazione delle chiavi primarie
- Individuazione delle relazioni
- Aggiunta di un servizio personalizzato per l'assegnazione automatica del termine
- API IBM Knowledge Catalog : Creare o aggiornare le impostazioni di arricchimento dei metadati
- API di IBM Knowledge Catalog : Recuperare le impostazioni di arricchimento dei metadati
Argomento principale: Arricchimento degli asset di dati