È possibile aggiungere dati corrispondenti a una classe dati per specificare come assegnare automaticamente le classi di dati. Selezionare un metodo di matching per specificare come assegnare automaticamente le classi di dati agli asset dati durante l'analisi dei dati.
Per impostazione predefinita i dati corrispondenti sono impostati su "Nessuna corrispondenza automatica", il che significa che è possibile assegnare la classe dati manualmente ad una colonna. Per abilitare una classe dati da assegnare automaticamente, è necessario definire i dati corrispondenti.
Per aggiungere un metodo di matching dati a una classe dati:
Aprire la classe dati e assicurarsi che Corrispondenza dati sia abilitata nella panoramica della classe dati.
Nota:Una classe di dati non è abilitata per la corrispondenza dei dati se una classe di dati parent ha i dati corrispondenti disabilitati. Le classi di dati bozza non possono essere utilizzate per la corrispondenza dei dati. Le classi di dati inattive possono essere utilizzate per specificare come classificare i dati, ma non contribuiscono ad alcuna azione fino a quando non diventano attive.
Fare clic su edit accanto al campo Matching method per scegliere come specificare i criteri di corrispondenza. La maggior parte dei metodi includono criteri di corrispondenza dei dati e delle colonne. A seconda dei servizi distribuiti, sono disponibile i seguenti metodi di corrispondenza:
Nessuna corrispondenza automatica
Corrispondenza a un elenco di valori validi - Un dizionario di valori validi viene utilizzato per determinare se ogni valore di una colonna di database appartiene alla classe dati.
Crea corrispondenza con i dati di riferimento - I codici di un dataset di riferimento vengono utilizzati per stabilire se ciascun valore di una colonna del database appartiene alla classe dati.
Corrispondenza ai criteri in un'espressione regolare - Viene utilizzata un'espressione regolare per determinare se ogni valore di una colonna di database appartiene alla classe dati.
Altri criteri di corrispondenza - La corrispondenza si basa solo sull'espressione regolare da applicare al nome della colonna, sul tipo di dati specificato della colonna o su entrambi. Non ci sono criteri aggiuntivi per valutare i valori della colonna. Altri criteri di corrispondenza vengono applicati prima che venga applicato il metodo di corrispondenza principale. Solo se il nome o il tipo di dati della colonna o entrambi corrispondono a quanto specificato come altri criteri di corrispondenza, i valori della colonna vengono valutati rispetto ai criteri di corrispondenza principali.
Inserire le informazioni per definire i dati corrispondenti e altri criteri di corrispondenza come richiesto per il tuo metodo di matching selezionato e selezionare un valore soglia .
Facoltativo: impostare una priorità corrispondente. Selezionare un valore compreso tra -2147483648 e 2147483647 per determinare la priorità della classe dati.
Pubblicare la classe dati.
Note sull'abilitazione e la disabilitazione dei dati corrispondenti:
- Una classe dati non è abilitata se una classe dati principale ha i dati corrispondenti disabilitati.
- Disabilitando i dati corrispondenti per una classe dati, disabiliterà anche la corrispondenza per le classi di dati dipendenti.
Classe dati principale
La classe dati principale viene utilizzata per organizzare la classe dati nei rapporti padre / figli. Inoltre si comporta come una sorta di "pre - filtro" se si utilizza un metodo di dati di matching automatico: se una classe dati principale ha un metodo dati corrispondente, i metodi di matching dei dati per le classi di dati per bambini verranno valutati solo se il metodo di matching dei dati per la classe dati principale ha restituito un riscontro positivo. Ciò significa che se si definisce una classe dati principale ha un impatto sui criteri utilizzati dal processo di classificazione dei dati per decidere se la classe dati deve essere assegnata o meno ad un campo dati analizzato.
Soglia
Questo campo rappresenta la minima confidenza che un candidato di classe dati dovrebbe avere su una colonna in modo che tale classe dati venga effettivamente assegnata alla colonna. Ad esempio: si definisce la soglia di una classe da 90%. Durante l'analisi una colonna corrisponde alla classe dati con una confidenza di 95%, e un'altra colonna corrisponde con una confidenza di 89%. Poiché la soglia è di 90%, la classe dati verrà assegnata solo alla prima colonna.
Abbassare la soglia quando si desidera che l'assegnazione della classe dati avvenga anche se non tutti i dati corrispondono alla classe dati. Si può fare se la qualità dei dati non è perfetta, e anche nei casi in cui si sa che la definizione del metodo corrispondente non copre il 100% di tutto il dominio di tutti i valori possibili. Un buon esempio è un classificatore per rilevare i nomi della città. Non è pratico definire un elenco accurato di valori contenenti tutti i nomi della città nel mondo, comprese le località più piccole. Un approccio più pratico sarebbe quello di entrare nella lista delle 100 città più grandi e diminuire la soglia per riflettere il fatto che non ti aspetti che tutti i valori di una colonna siano una di queste 100 città più grandi, ma che una classificazione debba essere positiva anche se valori sufficienti (< 100%) si trovano in quella lista delle 100 città più grandi.
Impostare una soglia è facoltativa. Per l'arricchimento dei metadati, la soglia definita a livello di progetto viene utilizzata se non si imposta direttamente una soglia sulla classe dati. Una soglia impostata sulla classe di dati ha sempre la precedenza sull'impostazione del progetto. Consultare Impostazioni di assegnazione della classe dati.
Le seguenti classi di dati predefinite hanno una soglia predefinita impostata nella definizione della classe dati:
Classe dati | Soglia |
---|---|
Città | Il 50% |
Nome persona | Il 50% |
Nome | Il 50% |
Secondo nome | Il 50% |
Cognome | Il 50% |
Nome organizzazione | Il 60% |
Priorità
La priorità della classe dati determina l'ordine in cui le classi di dati candidati dovrebbero diventare la classe dati infernale. Verranno assegnate solo le classi di dati con una fiducia al di sopra della soglia di confidenza. Quando i dati corrispondono a più classi di dati, quella con la massima priorità e una fiducia al di sopra della soglia di confidenza verrà assegnata.
Alcune classi di dati predefinite hanno una serie di priorità. In caso contrario, la priorità predefinita è 10 per le classi di dati predefinite con l'ambito corrispondente valore. Per le classi di dati con l'ambito corrispondente colonna, la priorità predefinita è 0. Per una classe di dati personalizzata per avere la precedenza su una classe dati predefinita, deve essere definita con una priorità più elevata.
Classe dati | Priorità |
---|---|
Riga indirizzo 1 | 12 |
Riga indirizzo 2 | 12 |
Riga indirizzo 3 | 12 |
Booleano | 16 |
Codice provincia Canada | 14 |
Nome provincia Canada | 12 |
Città | 7 |
Codice | -10 |
Codice paese | 13 |
Nome paese | 12 |
Nome | 10 |
Sesso | 16 |
Identificativo | -10 |
Indicatore | -10 |
Cognome | 7 |
Secondo nome | 10 |
Organizzazione | 7 |
Nome persona | 7 |
Quantità | -10 |
Testo | -10 |
Contea di US | 8 |
US State Code | 14 |
Nome Stato USA | 12 |
Corrisponde a un elenco di valori validi
Quando si abbinano i dati ad un elenco di valori validi, si crea un elenco di valori validi che classificano i propri dati sul livello dei valori di una colonna di database. È necessario fornire i valori uno per uno manualmente, quindi questo metodo è consigliato per una piccola serie di valori. Per elenchi più lunghi, è possibile utilizzare il metodo Crea corrispondenza per fare riferimento ai dati .
Nella sezione Match to list di valori validi , specificare un elenco di valori validi.
Criteri di corrispondenza del testo:
- Distinzione tra maiuscole e minuscole
- Se si seleziona, solo i valori che hanno lo stesso caso dei valori validi specificati vengono classificati come corrispondenti alla classe dati. Se non selezionato, il caso viene ignorato.
- Spaziatura esatta
- Se si seleziona, solo le corrispondenze esatte vengono classificate in modo positivo. Se non selezionati, più caratteri di spazio bianco sono crollati in uno spazio unico prima di confrontare i valori validi con i valori sottoposti a test. Ad esempio, se il valore valido è
New York
e il valore verificato èNew York
, il valore verificato viene classificato come corrispondente, anche se ci sono più spazi vuoti nel valore valido, come ad esempioNew York
. Se il valore verificato èNewYork
senza uno spazio, tuttavia, il valore verificato viene classificato come non corrispondente. - Parole intere
- Se si seleziona, solo le corrispondenze esatte vengono classificate in modo positivo. Se non selezionato, i valori che si trovano come sottostringa sono classificati come corrispondenti anche alla classe dati. Ad esempio, se il valore valido è
Paris
e il valore verificato èParisienne moonlight
, il valore verificato viene classificato come corrispondente.
Quindi specificare la percentuale di valori dati corrispondenti richiesti per assegnare questa classe dati.
Crea corrispondenza con dati di riferimento
Quando si abbinano i dati a un dataset di riferimento, si seleziona un dataset di riferimento per classificare i dati sul livello dei valori di una colonna di database. Un dataset di riferimento è composto almeno dalle seguenti colonne:
- Codice
- Valore
Notare che questo metodo di corrispondenza utilizza la colonna di codice nel dataset di riferimento per determinare la classe dati.
File CSV di esempio con un esempio di codici paese:
code,value
"AND","Andorra"
"ARE","United Arab Emirates"
"AFG","Afghanistan"
"ATG","Antigua And Barbuda"
"AIA","Anguilla"
"ALB","Albania"
"ARM","Armenia"
...
I codici in questo esempio, come ad esempio AND
, ARE
, AFG
, possono essere utilizzati per determinare la classe dati.
Corrisponde ai criteri in un'espressione regolare
Viene utilizzata un'espressione regolare per determinare se ogni valore di una colonna di database appartiene alla classe dati.
Quando si abbina ai criteri in un'espressione regolare, si crea un'espressione regolare che classifica i propri dati sul livello dei valori di una colonna di database. L'espressione regolare deve utilizzare il formato JavaScript .
L'espressione regolare si applica agli asset di dati con una struttura chiara, ad esempio database, tabelle o colonne.
È possibile copiare e incollare uno qualsiasi dei seguenti esempi per le espressioni regolari a Criteri di nome colonna. Quindi specificare un nome di colonna per testare l'espressione regolare. È inoltre possibile selezionare il tipo di dati e la lunghezza del valore dei dati.
Esempio - Numero di telefono (Nord America)
Questa regolare corrispondenza di espressione:
- 3334445555
- 333.444.5555
- 333-444-5555
- 333 444 5555
- (333) 444 5555
- e tutte le relative combinazioni
\(?[0-9]{3}\)?[-. ]?[0-9]{3}[-. ]?[0-9]{4}
Esempio - DOB (data di nascita)
Questa espressione regolare corrisponde alla DOB (data di nascita):
<tns:DataClass id="DOB" name="%DOB.name" description="%DOB.description" provider="IBM" example="12-30-2015">
<tns:JavaClassifier
className="com.ibm.infosphere.classification.impl.DOBClassifier" />:
<tns:ColumnNameFilter>
<tns:ColumnNameRegularExpression><![CDATA[dob$|birth(day)?|geburtsdatum|na(issance|cimiento|scita)|urodzenia|(生ま(れた日)?|誕生日)|出生(年月)?]]></tns:ColumnNameRegularExpression>
</tns:ColumnNameFilter>
</tns:DataClass>
Altri criteri di corrispondenza
La corrispondenza si basa su criteri relativi al nome, al tipo di dati della colonna o a entrambi. Non ci sono criteri aggiuntivi per valutare i valori della colonna. Questo criterio viene applicato sulla parte superiore del metodo di matching inizialmente selezionato.
È possibile specificare un'espressione regolare per definire i nomi delle colonne corrispondenti e fornire un nome di colonna di esempio per il test. Il tipo di dati della colonna può avere qualsiasi tipo, Boolean, data o numero. È anche possibile definire la lunghezza minima e massima del valore dei dati.
Esempio di ancoraggio
Il seguente esempio è ancorato. Ancororing funziona il modo in cui la funzione Ricerca funziona nella maggior parte dei programmi software - ricerca del testo, da solo o nidificato all'interno di altri testi. Se si desidera ancorare la stringa della propria espressione regolare si utilizza questa sintassi:
^
stringa$
I "^" e i "$" ancorano i caratteri nella stringa. Il "^" rappresenta l'inizio della stringa e il "$" rappresenta la fine, quando si trova all'inizio e alla fine, rispettivamente. Il carattere "^" ha questo significato speciale solo quando è il primo carattere in uno schema; il "$" ha questo significato solo quando è l'ultimo carattere in uno schema.
Ad esempio, se si desidera verificare che un valore di proprietà abbia una stringa specifica di caratteri, assicurarsi di ancorarlo. Supponiamo che un'etichetta in un modulo d'ordine sia "Order" se il cliente ha un solo ordine, ed è "Ordini" se il cliente ha più ordini e si desidera confermare che questo cliente ha un solo ordine. Sulla proprietà di testo dell'etichetta, modificare il valore in un'espressione regolare:
^Order$
In questo caso, "Order" è l'unico valore che corrisponde. "Ordini" non corrisponde.
Ulteriori informazioni
- Dettagli classi dati predefinite
- Profili degli asset
- Creazione di un arricchimento metadati
- Esempi diIBM Knowledge Catalog Repository GitHub
Argomento principale: classi dati