0 / 0
Go back to the English version of the documentation
węzeł anomalii
Last updated: 07 lip 2023
Węzeł anomalii (SPSS Modeler)

Modele wykrywania anomalii służą do wykrywania wartości odstających lub nietypowych obserwacji w danych. W odróżnieniu od innych metod modelowania, które zapisują reguły dotyczące nietypowych obserwacji, modele wykrywania anomalii zapisują informację o zachowaniach normalnych. Dzięki temu możliwe jest zidentyfikowanie wartości odstających nawet wtedy, gdy nie pasują one do żadnego znanego wzorca, co może być szczególnie użyteczne w takich zastosowaniach, jak wykrywanie oszustw, w których wciąż pojawiają się nowe wzorce (metody popełnienia oszustwa). Wykrywanie anomalii jest metodą nienadzorowaną, co oznacza, że nie wymaga początkowego uczącego zbioru danych zawierającego znane obserwacje oszustw.

Podczas gdy tradycyjne metody wykrywania wartości odstających z reguły analizują jednocześnie jedną lub dwie zmienne, algorytm wykrywania anomalii może analizować duże liczby zmiennych, by wykryć skupienia lub grupy podobnych rekordów. Każdy rekord jest następnie porównywany z innymi rekordami w tej samej grupie w celu wykrycia ewentualnych anomalii. Im bardziej odległa jest obserwacja od normalnego środka grupy, tym bardziej prawdopodobne jest, iż mamy do czynienia z obserwacją nietypową. Algorytm może na przykład zgrupować rekordy w trzy osobne skupienia i oznaczyć rekordy, które wypadają daleko od środka swoich skupień.

Każdemu rekordowi przypisuje się indeks anomalii, czyli iloraz indeksu odchylenia grupy od średniej ze skupienia, do którego należy obserwacja. Im większy indeks, tym większe odchylenie obserwacji od średniej. W typowych warunkach obserwacje z indeksem anomalii poniżej 1, a nawet 1,5, nie są uznawane za anomalie, ponieważ odchylenie jest prawie takie samo lub nieznacznie większe od średniej. Jednak obserwacje z indeksem większym niż 2 są dobrymi kandydatami na anomalie, ponieważ odchylenie jest co najmniej dwukrotnie większe od średniej.

Wykrywanie anomalii jest metodą eksploracyjną pomyślaną jako sposób na szybkie wykrywanie nietypowych obserwacji lub rekordów będących kandydatami do dalszej analizy. Należy je traktować jako obserwacje/rekordy podejrzane, które po bliższym zbadaniu mogą, ale nie muszą okazać się rzeczywistymi anomaliami. Może okazać się, że rekord jest stuprocentowo poprawny, ale warto monitorować go na potrzeby budowania modelu. Może się też zdarzyć, że algorytm będzie stale zgłaszał fałszywe anomalie, co świadczyć może o błędzie lub artefakcie w procesie zbierania danych.

Należy zwrócić uwagę, że ta opcja wykrywania anomalii identyfikuje nietypowe rekordy lub obserwacje w oparciu o zestaw zmiennych wybranych w modelu bez względu na jakąkolwiek konkretną zmienną przewidywaną (zależną) oraz niezależnie od tego, czy te zmienne są istotne dla przewidywanego wzorca. Z tego względu może okazać się wskazane zastosowanie wykrywania anomalii w połączeniu z wyborem predyktora lub inną technika monitorowania i rangowania zmiennych. Można na przykład zastosować wybór predyktora do identyfikacji najistotniejszych zmiennych względem określonej zmiennej przewidywanej, a następnie, korzystając z wykrywania anomalii, zlokalizować rekordy najbardziej nietypowe przy uwzględnieniu tych zmiennych. (Alternatywą byłoby utworzenie modelu drzewa decyzyjnego, a następnie zbadanie wszelkich błędnie sklasyfikowanych rekordów jako potencjalnych anomalii. Metoda ta byłaby jednak znacznie trudniejsza do zreplikowania lub zautomatyzowania na większą skalę).

Przykład. W procesie weryfikacji wniosków o dofinansowanie dla projektów rozwoju rolnictwa w celu wykrycia ewentualnych oszustw można zastosować technikę wykrywania anomalii, aby ujawniać odstępstwa od normy oraz wyróżniać rekordy nietypowe i warte dokładniejszego zbadania. Szczególnie interesują nas wnioski o dofinansowanie na kwotę zbyt wysoką (lub zbyt niską) w stosunku do rodzaju i wielkości gospodarstwa.

Wymagania. Jedna lub wiele zmiennych wejściowych. Należy zwrócić uwagę, że jako zmienne wejściowe można wykorzystać tylko zmienne o roli wejściowej z przypisanym źródłem lub węzłem wprowadzania danych. Zmienne przewidywane (rola zmiennej przewidywanej lub obie role) są ignorowane.

Mocne strony. Oznaczając obserwacje, które nie spełniają znanego zestawu kryteriów, a nie te, które kryteria spełniają, modele wykrywania anomalii mogą rozpoznać nietypowe obserwacje nawet wówczas, gdy nie są one zgodne ze znanymi wcześniej wzorcami. W połączeniu z wyborem predyktorów wykrywanie anomalii umożliwia analizowanie dużych ilości danych w celu stosunkowo szybkiego wykrycia najbardziej interesujących rekordów.

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more