Translation not up to date
Modely pro detekci anomálií se používají k identifikaci odlehlých a neobvyklých případů v datech. Na rozdíl od jiných modelovacích metod, které ukládají pravidla o neobvyklých případech, ukládají modely detekce anomálií informace o tom, jak vypadá normální chování. Díky tomu je možné identifikovat odlehlé hodnoty i v případě, že nevyhovují žádnému známému vzoru a mohou být užitečné zejména v aplikacích, jako je odhalování podvodů, kde nové vzory mohou neustále vznikajícím způsobem vznikajícím. Detekce anomálií je metodou bez dozoru, což znamená, že nevyžaduje soubor údajů o odborné přípravě obsahující známé případy podvodu, který by mohl být použit jako výchozí bod.
Zatímco tradiční metody identifikace odlehlých hodnot se obvykle podívají na jednu nebo dvě proměnné najednou, detekce anomálií může prověřit velké množství polí pro identifikaci klastrů nebo rovnocenných skupin, do nichž podobné záznamy padají. Každý záznam lze poté porovnat s ostatními ve své skupině rovnocenných uzlů, aby identifikoval možné anomálie. Čím dál je případ od obvyklého středu, tím je pravděpodobnější, že je to neobvyklé. Tento algoritmus může například zasunout záznamy do tří různých klastrů a označí ty, které jsou daleko od středu libovolného klastru.
Každému záznamu je přiřazen index anomálie, což je poměr indexu odchylky skupiny k jeho průměru v rámci klastru, do kterého tento případ patří. Čím větší je hodnota tohoto indexu, tím větší odchylka má velikost písmen než průměr. Za obvyklých okolností se případy s indexem anomálií nižším než 1 nebo dokonce 1.5 nepovažují za anomálie, protože odchylka je přibližně stejná nebo o něco více než průměr. Avšak případy s hodnotou indexu větší než 2 mohou být kandidáty na anomálie, protože odchylka je nejméně dvakrát vyšší než průměr.
Anomálie detekce je průzkumná metoda navržená pro rychlou detekci neobvyklých případů nebo záznamů, které by měly být kandidáty na další analýzu. Ty by měly být považovány za podezřelé anomálie, které při bližším zkoumání mohou nebo nemusí být reálné. Možná zjistíte, že záznam je zcela platný, ale pro účely modelové budovy jej vyberte z dat pro účely modelové budovy. Případně, pokud algoritmus opakovaně zapíná falešné anomálie, může to ukazovat na chybu nebo artefakt v procesu shromažďování dat.
Všimněte si, že detekce anomálií identifikuje neobvyklé záznamy nebo případy prostřednictvím analýzy klastru založené na sadě polí vybraných v modelu bez ohledu na jakékoli specifické cílové (závislé) pole a bez ohledu na to, zda jsou tato pole relevantní pro vzorek, který se pokoušíte předpovědět. Z tohoto důvodu můžete chtít použít detekci anomálií v kombinaci s výběrem funkcí nebo jinou technikou pro screening a očíslování pořadí polí. Například můžete použít výběr funkcí k identifikaci nejdůležitějších polí relativně k určitému cíli a pak pomocí detekce anomálií vyhledat záznamy, které jsou nejvíce neobvyklé s ohledem na tato pole. (Alternativním přístupem by bylo sestavení modelu rozhodovacího stromu a následné přezkoumání případných neklasifikovaných záznamů jako možných anomálií. Nicméně, tato metoda by byla obtížnější replikovat nebo automatizovat ve velkém měřítku.)
Příklad. Při prověřování grantů na rozvoj zemědělství v případě možných případů podvodu lze zjistit odchylky od normy, přičemž je třeba zdůraznit ty záznamy, které jsou neobvyklé a které si zasluhují další šetření. Zvláště se zajímáte o žádosti o grant, které se zdají být příliš nárokovat (nebo příliš málo) pro typ a velikost farmy.
Požadavky. Jedno nebo více vstupních polí. Všimněte si, že jako vstupy lze použít pouze pole s rolí nastavenou na Vstup pomocí uzlu zdroje nebo typu uzlu. Cílová pole (role nastavena na Cíl nebo Obojí) jsou ignorována.
Silné stránky. Označování případů, které nejsou v souladu se známým souborem pravidel, spíše než ty, které provádějí, mohou modely anomálie identifikovat neobvyklé případy i tehdy, když nesledují dříve známé vzory. Když je použita v kombinaci s výběrem funkcí, detekce anomálií umožňuje zobrazení velkého množství dat k identifikaci záznamů o největších zájmu relativně rychle.