Quando si creano modelli di categorie in Text Analytics, è possibile scegliere tra più tecniche diverse per creare le categorie. Poiché ogni dataset è unico, il numero di tecniche e l'ordine in cui si applicano possono cambiare.
Dal momento che l'interpretazione dei risultati può essere diversa da un utente ad un altro, può essere necessario sperimentare tecniche diverse per verificare quale produce i migliori risultati per i dati di testo. In Text Analytics, è possibile creare modelli di categoria in una sessione di workbench in cui è possibile esplorare e ottimizzare ulteriormente le categorie.
In questa documentazione, creazione di categorie si riferisce alla generazione di definizioni di categorie e alla classificazione utilizzando una o più tecniche integrate, e categorizzazione si riferisce al processo di attribuzione di un punteggio, o di etichettatura, in base al quale gli identificativi univoci (nome/ID/valore) vengono assegnati alle definizioni di categoria per ogni record o documento.
Durante la creazione delle categorie, i concetti e i tipi che sono stati estratti vengono utilizzati come blocchi costruttivi per le categorie. Quando si creano le categorie, i record o i documenti vengono assegnati automaticamente alle categorie se contengono un testo che corrisponde a un elemento di una definizione di categoria.
Text Analytics offre diverse tecniche di creazione di categorie automatizzate per facilitare la categorizzazione di documenti o record in modo rapido.
Tecniche di raggruppamento
Ognuna delle tecniche disponibili è adatta a determinati tipi di dati e situazioni, ma spesso è utile combinare le tecniche nella stessa analisi per catturare l'intera gamma di record di documenti. È possibile individuare un concetto in più categorie o trovare categorie ridondanti.
Rete semantica. Questa tecnica inizia a individuare i possibili sensi di ciascun
concetto dall'indice estensivo di relazioni di parole e poi crea le categorie raggruppando i concetti
correlati. Questa tecnica è migliore quando i concetti sono noti alla rete semantica e non sono troppo
ambigui. La tecnica è meno utile quando il testo contiene una terminologia specialistica o un gergo
sconosciuto alla rete. In un esempio, il concetto granny smith apple
potrebbe essere raggruppato con gala apple
e winesap apple
poiché sono elementi di pari livello del granny smith. In un altro esempio, il concetto animal
potrebbe essere raggruppato con cat
e kangaroo
poiché sono iponimi di animal
. Questa
tecnica è disponibile solo per il testo in inglese.
Inclusione di concetti. Questa tecnica crea categorie raggruppando concetti a
termini multipli (parole composte) basati sul fatto che contengono parole che sono sottoinsiemi o soprainsiemi
di una parola nell'altra. Ad esempio, il concetto seat
viene raggruppato con safety seat
, seat belt
e seat belt buckle
.