이상 항목 발견 모델은 데이터에서 이상치 또는 특수 케이스를 식별하기 위해 사용됩니다. 특수 케이스에 대한 규칙을 저장하는 다른 모델링 방법과 달리, 이상 항목 발견 모델은 유사하게 보이는 보통의 작동에 대한 정보를 저장합니다. 그러면 이상치가 알려진 패턴을 따르지 않을 경우에도 이상치를 식별할 수 있고, 특히 새 패턴이 끊임없이 새로 생성될 수 있는 부정 수단 발견과 같은 애플리케이션에서 유용할 수 있습니다. 이상 항목 발견은 비감독 방법으로, 시작점으로 사용할 부정 수단의 알려진 케이스를 포함하는 훈련 데이터 세트가 필요하지 않습니다.
이상치를 식별하는 전형적인 방법에서는 일반적으로 한 번에 하나 또는 두 개의 변수를 검색하지만, 이상 항목 발견은 유사한 레코드를 놓을 군집 또는 피어 그룹을 식별하기 위해 많은 필드 수를 조사할 수 있습니다. 각 레코드는 해당 피어 그룹에 다른 레코드와 비교되어 가능한 이상 항목을 식별할 수 있습니다. 케이스가 보통의 중심에서 멀어질 수록 한층 특수하게 됩니다. 예를 들어, 알고리즘은 레코드를 세 개의 별도의 군집으로 묶고 하나의 군집 중심에서 멀리 있는 레코드에 플래그를 지정할 수 있습니다.
각 레코드에는 케이스가 속하는 군집에서 해당 평균에 대한 그룹 편차 지수의 비율인 이상 항목 지수가 지정됩니다. 이 지수의 값이 클수록 케이스의 편차는 평균보다 커집니다. 일반적인 상황에서, 이상 항목 지수 값이 1 또는 1.5보다 작은 케이스는 이상 항목으로 간주되지 않습니다. 편차가 평균과 같거나 약간 크기 때문입니다. 그러나 지수 값이 2보다 큰 케이스는 좋은 이상 항목 후보가 될 수 있습니다. 편차가 최소 평균의 두 배이기 때문입니다.
이상 항목 발견은 추가 분석에 대해 후보여야 하는 특수 케이스 또는 레코드의 빠른 발견을 위해 설계된 탐색 방법입니다. 이러한 항목은 의심이 가는 이상 항목(엄밀한 검사에서 실제로 밝혀지거나 그렇지 않을 수 있는)으로 간주해야 합니다. 레코드가 완전히 유효하다는 것을 알 수 있지만, 모델 작성 목적을 위해 데이터로부터 선별하기 위해 선택할 수 있습니다. 또는, 알고리즘이 반복적으로 거짓 이상 항목을 나타내면, 이는 데이터 수집 프로세스에서의 오류 또는 아티팩트를 가리킬 수 있습니다.
이상 항목 발견은 특정 목표(종속) 필드를 고려하지 않고 해당 필드가 예측하려고 하는 패턴에 관련되는지 여부에 관계없이 모델에서 선택된 필드 세트를 기반으로 군집분석을 통해 특수 레코드 또는 케이스를 식별한다는 점에 유의하십시오. 이러한 이유로, 필드선택 또는 필드 선별 및 순위화를 위한 다른 기법과 함께 이상 항목 발견을 사용하고자 할 수 있습니다. 예를 들어, 필드선택을 사용하여 특정 목표와 관련된 가장 중요한 필드를 식별한 후 이상 항목 발견을 사용하여 해당 필드와 관련된 가장 특이한 레코드를 찾을 수 있습니다. (대체 접근 방식으로, 의사결정 트리 모형을 작성하고 잠재적 이상 항목으로 오분류된 레코드를 탐색할 수 있습니다. 그러나, 이 방법은 대규모로 복제하거나 자동화하기에 어렵습니다.)
예. 농업 개발 기금의 가능한 부정 행위 선별 심사에서, 이상 항목 발견을 사용하여 표준 편차를 발견함으로써 이상 항목으로 추후 조사할 가치가 있는 레코드를 강조할 수 있습니다. 특히 농장의 유형과 규모에 비해 너무 많이(또는 너무 적게) 클레임하는 것으로 보이는 기금 애플리케이션에 관심이 있습니다.
요구사항. 하나 이상의 입력 필드. 소스 또는 유형 노드를 사용하여 역할이 입력으로 설정된 필드만 입력으로 사용할 수 있음에 유의하십시오. 대상 필드(대상 또는 둘 다에 설정된 역할)는 무시됩니다.
강도. 이상 항목 발견 모델은 알려진 규칙 세트를 준수하지 않는 케이스에 플래그를 지정하여 이전에 알려진 패턴을 따르지 않는 특이 케이스도 식별할 수 있습니다. 필드선택과 함께 사용하여 이상 항목 발견은 많은 양의 데이터를 선별해서 상대적으로 가장 관심이 있는 레코드를 빠르게 식별할 수 있습니다.