0 / 0
Torna alla versione inglese della documentazione

Identificazione delle relazioni

Ultimo aggiornamento: 05 lug 2024
Identificazione delle relazioni

Per identificare le relazioni chiave tra gli asset di dati o per identificare i dati sovrapposti o ridondanti nelle colonne, eseguire un'analisi di relazione.

Le relazioni sono connessioni tra asset di dati che contengono informazioni correlate. Tali relazioni vengono create indicando che i valori chiave in un asset di dati corrispondono ai valori chiave in uno o più altri asset di dati. L'identificazione di queste connessioni consente di scoprire come i propri dati si adattano.

Un'analisi di relazione chiave identifica coppie di chiavi primarie ed esterne con una relazione uno - a - molti tra due asset di dati in un database relazionale. Una chiave primaria è una colonna o una serie di colonne che identifica in modo univoco ciascun record in un asset di dati. Una chiave esterna è una colonna o una serie di colonne in un asset di dati che fa riferimento alle colonne della chiave primaria in un altro asset di dati. È possibile utilizzare le informazioni sulla relazione per determinare in che modo è possibile unire gli asset di dati.

Una sovrapposizione si verifica quando il contenuto è disponibile da più di un'origine. L'analisi di sovrapposizione ricerca strutture identiche o simili negli asset di dati confrontando i valori delle colonne all'interno di un asset di dati o tra gli asset di dati. Pertanto, l'analisi della sovrapposizione consente di determinare se i dati sono univoci o simili e quanto i dati potrebbero sovrapporsi.

I risultati delle analisi di relazione sono cumulati. Ogni volta che si esegue un'analisi, l'analisi aggiunge nuove relazioni o aggiorna le relazioni identificate nelle precedenti esecuzioni dell'analisi.

Prerequisiti

Il servizio DataStage deve essere distribuito per eseguire le analisi delle relazioni.

Tutte le operazioni eseguite come parte di un arricchimento dei metadati richiedono credenziali per l'autorizzazione sicura. In genere, la tua chiave API utente viene utilizzata per eseguire tali operazioni di lunga durata senza interruzioni. Se le credenziali non sono disponibili quando si tenta di eseguire un'analisi di relazione chiave o un'analisi di sovrapposizione, viene richiesto di creare una chiave API. Tale chiave API viene quindi salvata come credenziali dell'attività. Vedi Gestione della chiave API utente.

Se una delle connessioni alle origini dati è bloccata, viene richiesto di immettere le proprie credenziali personali. Questo passo monouso sblocca in modo permanente le connessioni.

È possibile eseguire analisi approfondite delle relazioni senza creare prima profili di asset. L'analisi della chiave profonda o della relazione di sovrapposizione non si basa sulle informazioni del profilo come la distribuzione della frequenza dei valori di colonna. I dati delle colonne vengono invece analizzati direttamente.

Esecuzione di un'analisi di relazione chiave

Eseguire un'analisi di relazione chiave per identificare le relazioni di chiave a colonna singola o le relazioni di chiave composta. L'analisi determina i potenziali candidati di relazione e suggerisce le migliori relazioni tra gli asset di dati in base alla confidenza per ogni potenziale relazione. Per calcolare la confidenza della relazione, vengono considerate le seguenti informazioni:

  • Il numero di valori dalla chiave primaria presenti nella chiave esterna
  • Il numero di valori orfani nella chiave esterna
  • La somiglianza tra i nomi delle colonne tra la chiave primaria e la chiave esterna
  • La posizione delle colonne negli asset di dati.

Le relazioni possono essere rilevate tra colonne di tipi di dati differenti come segue:

  • Tipi di dati BIGINT e SMALLINT
  • Tipi di dati BIGINT e DECIMAL
  • Tipi di dati BIGINT e CHAR
  • Tipi di dati BIGINT e VARCHAR
  • Tipi di dati DECIMAL e VARCHAR
  • Tipi di dati CHAR e VARCHAR
  • Tipi di dati VARCHAR e LONG VARCHAR

Le coppie con una confidenza che supera la soglia di suggerimento definita vengono elencate come relazioni candidate per un asset. È inoltre possibile abilitare l'assegnazione automatica delle relazioni. Per ulteriori informazioni sulle soglie, vedere Relazioni chiave .

Questo tipo di analisi di relazione controlla le singole colonne negli asset di dati selezionati per la similarità del nome della colonna e dei dati di cui è stato creato il profilo. Se non si esegue un'analisi approfondita, vengono applicate le soglie impostate nelle impostazioni di arricchimento predefinite.

Se si sceglie di eseguire un'analisi approfondita, i dati effettivi della colonna vengono controllati per identificare le chiavi primarie ed esterne. È inoltre possibile scegliere di identificare le relazioni di chiavi composte o eseguire l'analisi su un campione di dati invece che sull'intero asset di dati. Per un'analisi approfondita, le soglie definite nelle impostazioni di arricchimento non hanno effetto. È invece possibile impostare soglie per ogni singola esecuzione di analisi.

Il completamento dell'analisi approfondita richiede più tempo rispetto all'analisi della relazione chiave predefinita. Se si sceglie di identificare anche le chiavi composte, il tempo di elaborazione aumenta in modo significativo. L'analisi potrebbe essere eseguita per giorni o più. Vengono selezionate solo le colonne adiacenti dove adiacente indica direttamente l'una accanto all'altra se il tipo di dati delle colonne consente l'analisi delle chiavi o si avvicinano quando le colonne intermedie vengono ignorate perché i relativi tipi di dati non consentono l'analisi delle chiavi.

Per eseguire un'analisi di relazione chiave per uno o più asset:

  1. Aprire l'asset di arricchimento metadati.

  2. Nella scheda Asset , selezionare gli asset come richiesto.

  3. Selezionare Ricarica> Identifica relazioni dalla barra degli strumenti. Il tipo di analisi predefinito è Chiave.

    Questo tipo di analisi delle relazioni viene eseguito generalmente su più colonne negli asset di dati selezionati. Per impostazione predefinita, la lunghezza della chiave composta è impostata su 2.

    L'analisi approfondita della relazione chiave controlla i dati effettivi della colonna ed è quindi un processo che richiede molto tempo. È possibile che si desideri eseguire l'analisi su un campione di dati invece che sull'intero asset di dati.

    Le impostazioni di arricchimento predefinite per le relazioni chiave non hanno effetto. All'analisi approfondita delle relazioni si applicano diverse impostazioni predefinite per i suggerimenti e l'assegnazione automatica:

    • La soglia di suggerimento predefinita è del 25%.
    • L'assegnazione automatica delle relazioni è abilitata. La soglia di assegnazione predefinita è il 90%.

    È possibile sovrascrivere queste impostazioni predefinite per ogni singola esecuzione di analisi.

    Per eseguire un'analisi della relazione chiave superficiale su singole colonne negli asset di dati, è possibile utilizzare l'opzione di arricchimento Imposta relazioni .

  4. Fare clic su Esegui.

Assegnazione, annullamento dell'assegnazione o rimozione di relazioni chiave

Una volta completata l'analisi delle relazioni chiave, è possibile visualizzare e gestire le relazioni qui:

  • Nella scheda Chiavi del pannello dei dettagli dell'asset, viene visualizzata un'icona più se sono state rilevate relazioni di candidati. Fare clic sull'icona più, controllare le relazioni suggerite per questo asset e assegnare quelle più adatte. È anche possibile annullare l'assegnazione o rimuovere le relazioni per questo asset.

  • Il link Visualizza relazioni chiave nell'area di arricchimento è attivo. Fare clic sul link per visualizzare un elenco di tutte le relazioni chiave rilevate nella scheda Chiavi . Selezionare e assegnare le relazioni suggerite o annullare l'assegnazione delle relazioni. È anche possibile rimuovere le relazioni suggerite e assegnate.

    Per visualizzare solo le relazioni con una chiave primaria assegnata, filtrare l'elenco per Chiave primaria.

    Dalla tabella delle relazioni delle chiavi, è anche possibile aprire una vista grafica delle relazioni di ciascuna chiave per controllare e gestire le relazioni. Dal menu di overflow per una chiave, selezionare Apri diagrammaoppure selezionare Visualizza dettagli e fare clic su Visualizza diagramma nel pannello laterale.

Se si annulla l'assegnazione di una relazione, il suo stato viene reimpostato su Suggerito. Se si rimuove una relazione, questa viene completamente rimossa. Una relazione rimossa potrebbe essere suggerita di nuovo quando si riesegue l'analisi.

Esecuzione di un'analisi di sovrapposizione

Eseguire un'analisi di sovrapposizione per identificare i dati sovrapposti o potenzialmente ridondanti nelle colonne di uno o più asset di dati.

Per eseguire un'analisi di relazione chiave per uno o più asset:

  1. Aprire l'asset di arricchimento metadati.

  2. Nella scheda Asset , selezionare gli asset come richiesto.

  3. Selezionare Ricarica> Identifica relazioni dalla barra degli strumenti.

  4. Selezionare Sovrapposizione come tipo di analisi. Facoltativamente, è possibile regolare l'impostazione di campionamento. Per impostazione predefinita, vengono analizzati tutti i record di un asset di dati, il che può richiedere molto tempo. È possibile che si desideri selezionare una percentuale inferiore di dati da controllare. Quando si riduce la dimensione del campione, i record inclusi nel campione vengono scelti in modo casuale.

    Le impostazioni di arricchimento predefinite non hanno effetto. All'analisi della sovrapposizione si applicano diverse impostazioni predefinite per i suggerimenti e l'assegnazione automatica:

    • La soglia di suggerimento predefinita è del 25%.
    • L'assegnazione automatica delle relazioni è abilitata. La soglia di assegnazione predefinita è il 90%.

    È possibile sovrascrivere queste impostazioni predefinite per ogni singola esecuzione di analisi.

Verifica dei risultati dell'analisi di sovrapposizione

Visualizzare i risultati dell'analisi per stabilire in che modo i dati delle colonne sono correlati.

Per controllare e gestire le relazioni di sovrapposizione:

  1. Fai clic sul link View key relationships nell'area di arricchimento. Sulla scheda Sovrapposizione , è possibile visualizzare le seguenti informazioni per ogni relazione rilevata:

    • L'asset di base e l'asset accoppiato
    • Lo stato della relazione
    • Il numero massimo di valori distinti
    • Il numero totale e la percentuale di valori colonna comuni
  2. Espandere una voce per visualizzare ulteriori informazioni:

    • I nomi della colonna di base e della colonna a coppia che mostrano i dati sovrapposti

    • Il tipo di sovrapposizione per la base e la colonna accoppiata:

      Uguale
      Le colonne di base e appaiate hanno gli stessi valori. Le percentuali per entrambi sono 100% e 100%.
      Sottoinsieme
      Tutti i valori in questa colonna si trovano nell'altra colonna, ma l'altra colonna contiene più valori. La percentuale per la prima colonna è 100%, ma la percentuale per l'altra colonna è inferiore al 100%.
      Soprainsieme
      Tutti i valori nell'altra colonna si trovano in questa colonna, ma non tutti i valori in questa colonna si trovano nell'altra colonna. La percentuale per l'altra colonna è del 100%, ma la percentuale per la prima colonna è inferiore al 100%.
      Sovrapposizione
      Alcuni valori nelle colonne hanno alcune sovrapposizioni, ma non tutti i valori in entrambe le colonne sono comuni. Le percentuali di entrambi sono inferiori al 100%.
    • Il numero totale di valori distinti nella colonna di base e il numero e percentuale di valori comuni alla colonna a coppia

    • Il numero totale di valori distinti nella colonna a coppia e il numero e percentuale di valori comuni alla colonna di base

  3. Assegnare le relazioni come richiesto.

Accesso ai dettagli di esecuzione del job

Mentre puoi accedere ai dettagli del job per l'arricchimento dei metadati generali dal pannello laterale, devi andare alla scheda Jobs del progetto per visualizzare il job di analisi delle relazioni. Il lavoro è di tipo Analisi chiave per gli asset di arricchimento metadati. Il nome lavoro segue il modello metadata_arricchment_name (Relationship Detection).

Ulteriori informazioni

Argomento principale: Arricchimento degli asset di dati