0 / 0
Torna alla versione inglese della documentazione
Nodo Anomalia
Ultimo aggiornamento: 04 ott 2024
Nodo Anomalia (SPSS Modeler)

I modelli di rilevamento delle anomalie vengono utilizzati per identificare valori anomali, o casi insoliti, nei dati. A differenza di altri metodi di modellazione che archiviano regole su casi insoliti, i modelli di rilevamento delle anomalie archiviano informazioni su ciò che si intende per comportamento normale. Questo consente di identificare eventuali valori anomali, anche se non sono conformi ad alcuno schema noto, e ciò può essere particolarmente utile nelle applicazioni, per esempio per il rilevamento di comportamenti fraudolenti, in cui possono emergere continuamente nuovi schemi. Il rilevamento delle anomalie è un metodo non supervisionato, ovvero non richiede un insieme di dati di addestramento contenente casi noti di comportamenti fraudolenti come punto di partenza.

Mentre i metodi tradizionali di identificazione dei valori anomali controllano generalmente una o due variabili alla volta, il rilevamento delle anomalie può esaminare moltissimi campi per identificare cluster o gruppi di peer contenenti record simili. È quindi possibile confrontare ogni record con gli altri nel rispettivo gruppo di peer per identificare possibili anomalie. Più un caso è lontano dal centro normale, maggiore è la probabilità che questo caso sia insolito. Per esempio, l'algoritmo potrebbe raggruppare i record in tre cluster distinti e contrassegnare quelli che cadono lontano dal centro di ogni cluster.

A ogni record viene assegnato un indice di anomalie, che corrisponde al rapporto tra l'indice di deviazione del gruppo rispetto alla sua media e il cluster a cui appartiene il caso. Maggiore è il valore di tale indice, maggiore è la deviazione del caso rispetto alla media. In circostanze normali, i casi con un indice di anomalie inferiore a 1 o persino a 1,5 non sono considerati anomalie perché la deviazione corrisponde pressoché alla media o è di poco superiore Tuttavia, i casi con un valore di indice superiore a 2 potrebbero essere delle anomalie, poiché la deviazione è almeno doppia rispetto alla media.

Il rilevamento delle anomalie è un metodo esplorativo progettato per il rilevamento rapido di casi o record insoliti che potrebbero essere buoni candidati per un'ulteriore analisi. Tali casi e record dovrebbero essere considerati come anomalie sospette che, a un esame più attento, potrebbero non rivelarsi tali. Si potrebbe per esempio scoprire che un record è perfettamente valido, ma decidere di escluderlo dai dati per la creazione del modello. Diversamente, se l'algoritmo rivela ripetutamente false anomalie, la causa potrebbe essere un errore o un valore falsato nel processo di raccolta dei dati.

Si noti che il rilevamento delle anomalie individua i record o i casi insoliti attraverso l'analisi dei cluster basata sull'insieme di campi selezionati nel modello, senza considerare alcun campo obiettivo (dipendente) specifico e indipendentemente dal fatto che questi campi siano pertinenti allo schema che si sta tentando di prevedere. Per questo motivo, l'utente potrebbe voler utilizzare il rilevamento di anomalie in combinazione con la selezione delle funzioni o un'altra tecnica per sottoporre a screening e classificare i campi. Per esempio, è possibile utilizzare la selezione delle funzioni per individuare i campi più importanti relativi a un obiettivo specifico e quindi utilizzare il rilevamento di anomalie per individuare i record più insoliti rispetto a tali campi (un approccio alternativo potrebbe essere la creazione di un modello di struttura ad albero delle decisioni e quindi l'esame dei record erroneamente classificati come potenziali anomalie. Tuttavia, questo metodo presenterebbe maggiori difficoltà rispetto alla replica o all'automazione su larga scala).

Esempio. Nello screening delle concessioni per lo sviluppo agricolo alla ricerca di possibili casi di frode, il rilevamento delle anomalie può essere utilizzato per scoprire le deviazioni dalla norma, grazie all'individuazione dei record anomali e che richiedono ulteriori analisi. L'interesse viene innanzitutto focalizzato sulle richieste di concessioni con una richiesta di denaro che sembra essere troppo elevata (o troppo esigua) per il tipo e le dimensioni dell'azienda agricola.

Requisiti. Uno o più campi di input. Si noti che solo i campi il cui ruolo è impostato su Input con un nodo origine o Tipo possono essere utilizzati come input. I campi obiettivo (ruolo impostato su Obiettivo o Entrambi) vengono ignorati.

Efficacia. Contrassegnando le caselle che non sono conformi a un insieme di regole note anziché quelle che lo sono, i modelli Rilevamento anomalie consentono di individuare i casi insoliti anche quando non seguono schemi già noti. Se utilizzato in combinazione con Selezione funzioni, il Rilevamento anomalie consente di sottoporre a screening grandi quantità di dati per individuare i record di maggior interesse in modo relativamente rapido.

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni