Translation not up to date
Uzel klastru TwoStep poskytuje formát klastrové analýzy. Lze jej použít k seskupení datové sady do různých skupin, když nevíte, co tyto skupiny jsou na začátku. Stejně jako u uzlů Kohonen a uzly K-Means používají modely klastru TwoStep nepoužívat cílové pole. Místo toho, aby se pokusil předpovědět výsledek, pokusí se klastr TwoStep pokusit se odhalit vzory v sadě vstupních polí. Záznamy jsou seskupeny tak, aby záznamy ve skupině nebo klastru měly tendenci být podobné sobě, ale záznamy v různých skupinách jsou nepodobné.
Klastr TwoStep je dvoustupňová metoda klastrování. První krok provede jednoduché předání prostřednictvím dat, během kterého komprimuje prvotní vstupní data do spravovatelné sady podklastrů. Druhý krok používá hierarchickou metodu klastrování k postupnému slučování podklastrů na větší a větší klastry, bez nutnosti dalšího průchodu dat. Hierarchické klastrování má tu výhodu, že nevyžaduje, aby byl počet klastrů vybrán před časem. Mnoho hierarchických metod klastrování začíná s jednotlivými záznamy jako počáteční klastry a slučuje je rekurzivně, aby vytvářely stále větší klastry. Ačkoli se takové přístupy často rozcházejí s velkými objemy dat, TwoStep je počáteční předtulácí hierarchické klastrování rychle i pro velké datové sady.
Požadavky. Chcete-li vyškolit model klastru TwoStep, potřebujete jedno nebo více polí s rolí nastaveným na Input
. Pole s rolí nastavenou na Target
, Both
nebo None
se ignorují. Algoritmus TwoStep Cluster neobsluhuje chybějící hodnoty. Záznamy s mezerami pro jakékoli vstupní pole budou při sestavení modelu ignorovány.
Silné stránky. Klastr TwoStep může pracovat se smíšenými typy polí a je schopen efektivně zpracovat velké datové sady. Má také schopnost testovat několik klastrovaných řešení a vybrat to nejlepší, takže nemusíte vědět, kolik klastrů požádat o hned na začátku. Klastr TwoStep může být nastaven tak, aby automaticky vyloučil odlehlé hodnotynebo extrémně neobvyklé případy, které mohou kontaminovat vaše výsledky.