Translation not up to date
Węzeł Dwustopniowa oferuje jedną z metod analizy skupień. Może ona posłużyć do skupiania zbioru danych w osobne grupy, jeśli nie wiemy z góry, co to są za grupy. Podobnie jak w przypadku węzłów Kohonen i K-średnie, modele Dwustopniowa nie mają zmiennej przewidywanej. Węzeł Dwustopniowa nie próbuje przewidzieć wyniku, lecz ujawnia istniejące wzorce w zbiorze zmiennych wejściowych. Rekordy są grupowane w taki sposób, aby rekordy w ramach grupy lub skupienia były do siebie podobne, zaś rekordy z różnych grup były do siebie niepodobne.
Węzeł Dwustopniowa realizuje dwustopniową metodę analizy skupień. Pierwszy krok stanowi pojedynczy przebieg przez dane polegający na kompresji surowych danych wejściowych w łatwy w zarządzaniu zestaw podgrup. Drugi krok korzysta z hierarchicznej metody grupowania w celu progresywnego scalania podgrup w coraz większe grupy, bez konieczności wykonywania jeszcze jednego przejścia przez dane. Zaletą grupowania hierarchicznego jest brak konieczności wybierania liczby skupień przed rozpoczęciem całego procesu. Wiele metod hierarchicznej analizy skupień rozpoczyna od pojedynczych rekordów traktowanych jako skupienia początkowe, a następnie rekursywnie je scala, tworząc coraz większe grupy. Choć takie strategie często nie sprawdzają się przy pracy na dużych ilościach danych, wstępne grupowanie stosowane w węźle Dwustopniowa zapewnia dużą szybkość hierarchicznej analizy skupień nawet w przypadku obszernych zbiorów danych.
Wymagania. Aby trenować model dwustopniowa, należy określić co najmniej jedno pole z rolą ustawioną na wartość Input
. Pola z rolą ustawioną na Target
, Both
lub None
są ignorowane. Algorytm dwustopniowej analizy skupień nie obsługuje braków danych. Rekordy z wartościami pustymi w jakichkolwiek zmiennych wejściowych będą ignorowane podczas budowania modelu.
Mocne strony. Dwustopniowa analiza skupień obsługuje różne typy zmiennych jednocześnie i wydajnie radzi sobie z obszernymi zbiorami danych. Umożliwia również przetestowanie kilku wariantów grupowania i wybranie najlepszego z nich, zatem użytkownik nie musi z góry wiedzieć, ilu skupień zażądać. Węzeł Dwustopniowa można skonfigurować w taki sposób, aby automatycznie wykluczał wartości odstające lub skrajnie nietypowe obserwacje, które mogłyby zanieczyścić wyniki.