0 / 0
Torna alla versione inglese della documentazione
Funzionamento della categorizzazione
Ultimo aggiornamento: 20 dic 2024
Funzionamento della categorizzazione (SPSS Modeler)

Quando si creano modelli di categorie in Text Analytics, è possibile scegliere tra più tecniche diverse per creare le categorie. Poiché ogni dataset è unico, il numero di tecniche e l'ordine in cui si applicano possono cambiare.

Dal momento che l'interpretazione dei risultati può essere diversa da un utente ad un altro, può essere necessario sperimentare tecniche diverse per verificare quale produce i migliori risultati per i dati di testo. In Text Analytics, è possibile creare modelli di categoria in una sessione di workbench in cui è possibile esplorare e ottimizzare ulteriormente le categorie.

In questa documentazione, creazione di categorie si riferisce alla generazione di definizioni di categorie e alla classificazione utilizzando una o più tecniche integrate, e categorizzazione si riferisce al processo di attribuzione di un punteggio, o di etichettatura, in base al quale gli identificativi univoci (nome/ID/valore) vengono assegnati alle definizioni di categoria per ogni record o documento.

Durante la creazione delle categorie, i concetti e i tipi che sono stati estratti vengono utilizzati come blocchi costruttivi per le categorie. Quando si creano le categorie, i record o i documenti vengono assegnati automaticamente alle categorie se contengono un testo che corrisponde a un elemento di una definizione di categoria.

Text Analytics offre diverse tecniche di creazione di categorie automatizzate per facilitare la categorizzazione di documenti o record in modo rapido.

Tecniche di raggruppamento

Ognuna delle tecniche disponibili è adatta a determinati tipi di dati e situazioni, ma spesso è utile combinare le tecniche nella stessa analisi per catturare l'intera gamma di record di documenti. È possibile individuare un concetto in più categorie o trovare categorie ridondanti.

Rete semantica. Questa tecnica inizia a individuare i possibili sensi di ciascun concetto dall'indice estensivo di relazioni di parole e poi crea le categorie raggruppando i concetti correlati. Questa tecnica è migliore quando i concetti sono noti alla rete semantica e non sono troppo ambigui. La tecnica è meno utile quando il testo contiene una terminologia specialistica o un gergo sconosciuto alla rete. In un esempio, il concetto granny smith apple potrebbe essere raggruppato con gala apple e winesap apple poiché sono elementi di pari livello del granny smith. In un altro esempio, il concetto animal potrebbe essere raggruppato con cat e kangaroo poiché sono iponimi di animal. Questa tecnica è disponibile solo per il testo in inglese.

Inclusione di concetti. Questa tecnica crea categorie raggruppando concetti a termini multipli (parole composte) basati sul fatto che contengono parole che sono sottoinsiemi o soprainsiemi di una parola nell'altra. Ad esempio, il concetto seat viene raggruppato con safety seat, seat belte seat belt buckle.

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni