0 / 0
Volver a la versión inglesa de la documentación
Nodo Anomalía
Última actualización: 04 oct 2024
Nodo Anomalía (SPSS Modeler)

Los modelos de detección de anomalías se utilizan para identificar valores atípicos, o casos extraños, en los datos. A diferencia de otros métodos de modelado que almacenan reglas acerca de casos extraños, los modelos de detección de anomalías almacenan información sobre el patrón de comportamiento normal. Esto permite identificar valores atípicos, incluso si no se ajustan a ningún patrón conocido, y puede ser especialmente útil en aplicaciones, como detección de fraudes, donde pueden surgir patrones nuevos constantemente. La detección de anomalías es un método no supervisado, lo que significa que no requiere un conjunto de datos de entrenamiento que contenga casos conocidos de fraudes para utilizarlos como punto de partida.

La detección de anomalías puede examinar un gran número de campos para identificar clústeres o grupos de homólogos en los que hay registros similares, mientras que los métodos tradicionales de identificación de valores atípicos observan una o dos variables a la vez. Así, se puede comparar cada registro con el resto del grupo de homólogos para identificar posibles anomalías. Cuanto más alejado esté un caso del centro normal, mayor será la probabilidad de que sea extraño. Por ejemplo, el algoritmo podría agrupar registros en tres clústeres distintos y marcar aquellos que se sitúen lejos del centro de cualquier clúster.

Se asigna un índice de anomalía a cada registro, que es el cociente del índice de desviación del grupo sobre su media sobre el clúster al que pertenece el caso. Cuanto mayor sea el valor de este índice, mayor será la desviación del caso sobre la media. En circunstancias normales, los casos con valores de índice de anomalía inferiores a 1 o incluso 1,5 no se considerarán anomalías, ya que su desviación es prácticamente la misma o sólo un poco superior a la media. Sin embargo, los casos con un valor de índice superior a 2 se consideran anómalos por presentar una desviación que es al menos el doble de la media.

La detección de anomalías es un método exploratorio diseñado para detectar rápidamente casos o registros extraños que deberían someterse a un análisis más detallado. Éstos deben considerarse sospechosos de anomalía, los cuales tras un análisis más exhaustivo, puede que resulten anomalías reales. Aunque puede que un registro le parezca totalmente válido, debe analizarlo a partir de los datos para generar un modelo. Otra posibilidad es que, en el caso de que el algoritmo ofrezca repetidamente anomalías falsas, se trate de un error o artefacto en el proceso de recopilación de datos.

Tenga en cuenta de que la detección de anomalías identifica registros o casos extraños a través del análisis de clústeres según el conjunto de campos seleccionado en el modelo, sin considerar ningún campo objetivo específico (dependiente) ni si tales campos son relevantes para el patrón que intenta predecir. Por este motivo, puede que desee utilizar la detección de anomalías en combinación con la selección de características o con cualquier otra técnica de cribado y clasificación de campos. Así, puede utilizar la selección de características para identificar los campos más importantes relativos a un objetivo específico y, a continuación, utilizar la detección de anomalías para buscar los registros menos habituales con respecto a estos campos. (Un método alternativo sería crear un modelo de árbol de decisión y, a continuación, examinar los registros clasificados erróneamente como anomalías potenciales. Sin embargo, este método sería más difícil de replicar o automatizar a gran escala.)

Ejemplo. Al cribar subvenciones para el desarrollo agrícola para posibles casos de fraude, se puede utilizar la detección de anomalías para descubrir las desviaciones de la norma, resaltando aquellos registros que sean anómalos y dignos de una investigación más detallada. En particular, le interesan aquellas solicitudes de subvenciones que parezcan reclamar demasiado dinero teniendo en cuenta el tipo y tamaño de la granja.

Requisitos. Uno o varios campos de entrada. Tenga en cuenta que sólo se pueden usar como entrada aquellos campos con el rol definido como Entrada mediante un nodo de origen o un nodo Tipo. Se omitirán los campos objetivo (con el rol definido como Objetivo o Ambos).

Puntos fuertes. Si se marcan los casos que no cumplen con un conjunto de reglas conocido para diferenciarlos de los que sí lo hacen, los modelos de detección de anomalías podrán identificar casos poco habituales incluso cuando no sigan patrones conocidos anteriormente. Cuando la detección de anomalías se utiliza en combinación con la selección de características, permite cribar grandes cantidades de datos con el fin de identificar los registros de mayor interés de forma relativamente rápida.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información