Les modèles de détection des anomalies permettent d'identifier les valeurs extrêmes (ou les cas inhabituels) au sein des données. Contrairement aux méthodes de modélisation qui contiennent des règles portant sur les observations inhabituelles, les modèles de détection des anomalies stockent des informations relatives à ce que doit être un comportement normal. Ils permettent ainsi d'identifier les valeurs extrêmes, et ce, même si ces dernières ne correspondent pas à un motif connu ; ils trouvent toute leur utilité dans la détection de fraudes où de nouveaux motifs apparaissent sans cesse. La détection d'anomalies est une méthode non supervisée, ce qui signifie qu'elle ne requiert comme point de départ aucun de l'ensemble de données d'apprentissage contenant des cas de fraude connus.
Si les méthodes traditionnelles d'identification des valeurs extrêmes prennent en compte une ou deux variables à la fois, la détection d'anomalies peut analyser un grand nombre de champs afin d'identifier les clusters ou les groupes d'homologues contenant des enregistrements semblables. Chaque enregistrement peut ensuite être comparé aux autres enregistrements du groupe d'homologues en vue de déceler des anomalies possibles. Plus une observation s'éloigne du point central défini comme étant normal, plus il y a de chances qu'elle soit inhabituelle. Par exemple, l'algorithme peut répartir les enregistrements dans trois clusters distincts et signaler ceux qui se trouvent les plus éloignés du centre de chaque cluster.
Chaque enregistrement se voit affecter un index d'anomalies, qui correspond au rapport entre l'index d'écart du groupe et la moyenne du cluster à laquelle l'observation appartient. Plus la valeur de l'index est élevée, plus l'observation s'écarte de la moyenne. En règle générale, les observations comportant des valeurs d'index d'anomalies inférieures à 1, voire à 1,5, ne sont pas considérées comme des anomalies car l'écart est quasi identique (ou légèrement supérieur) à la moyenne. Toutefois, les observations dont la valeur d'index est supérieure à 2 ont de fortes chances d'être anormales puisque l'écart correspond à plus du double de la moyenne.
La détection d'anomalies est une méthode exploratoire conçue pour détecter rapidement les observations ou enregistrements inhabituels qui doivent faire l'objet d'une analyse plus poussée. Il convient de parler ici d'anomalies suspectées ; en effet, à la suite d'un examen approfondi, elles peuvent s'avérer réelles ou non. Il se peut qu'un enregistrement soit parfaitement valide mais que vous décidiez de le filtrer à partir des données, à des fins de création de modèle. En outre, si l'algorithme renvoie à plusieurs reprises de fausses anomalies, cela peut être le résultat d'une erreur ou d'un artefact dans le processus de collecte des données.
La détection d'anomalies identifie les observations ou enregistrements inhabituels par le biais d'une analyse des clusters appliquée à l'ensemble de champs sélectionné dans le modèle, et ce, sans prendre en compte aucun champ (dépendant) cible spécifique, que ces champs soient pertinents ou non pour le motif sur lequel porte la prévision. C'est pourquoi il peut paraître utile d'associer la détection d'anomalies à la sélection de fonction ou à toute autre technique permettant de filtrer et de classer les champs. Vous pouvez, par exemple, utiliser la sélection de fonction pour identifier les champs les plus importants pour une cible donnée, puis exécuter la détection d'anomalies afin de repérer les enregistrements les plus inhabituels concernant ces champs. (Une autre approche consiste à créer un modèle d'arbre de décisions, puis à examiner tous les enregistrements qui n'ont pas été correctement classés afin de détecter des anomalies potentielles. Toutefois, cette méthode est plus difficile à répliquer et à automatiser à grande échelle.)
Exemple. En filtrant les subventions pour le développement agricole dans le but d'y détecter d'éventuels cas de fraude, la détection des anomalies peut être utilisée pour découvrir les écarts par rapport à la norme, en mettant en relief les enregistrements non conformes et qui méritent des recherches supplémentaires. Vous vous intéressez en particulier aux demandes de subvention qui semblent requérir une somme trop élevée (ou trop faible) pour le type et la taille de la ferme concernée.
Conditions requises. Au moins un champ d'entrée. Seuls les champs dont le rôle est paramétré sur Entrée et utilisant un noeud source ou type peuvent être utilisés comme entrées. Les champs cible (dont le rôle se voit affecter la valeur Cible ou Les deux) sont ignorés.
Force. En signalant les observations non conformes à un ensemble de règles plutôt que celles conformes, les modèles Détection des anomalies permettent d'identifier les observations inhabituelles, et ce même si celles-ci n'obéissent pas à des motifs précédents connus. Associée à la sélection de fonction, la détection d'anomalies permet de filtrer de grandes quantités de données afin d'identifier relativement rapidement les enregistrements présentant le plus grand intérêt.