CHAID 또는 카이제곱 자동 상호작용 발견은 카이제곱 통계량을 사용하여 최적의 분할을 식별해서 의사결정 트리를 작성하기 위한 분류 방법입니다.
CHAID는 먼저 각 입력 필드와 결과 사이의 교차 분석표를 검사하고 카이제곱 독립성 검정을 사용하여 유의성을 검정합니다. 이러한 관계 중 둘 이상이 통계적으로 중요한 경우 CHAID는 가장 중요한 (가장 작은 p
값) 입력 필드를 선택합니다. 입력에 세 개 이상의 범주가 있는 경우 비교됩니다. 결과에 차이가 없는 카테고리는 함께 접힙니다. 범주 병합은 최하위 차이를 표시하는 범주 쌍을 연속적으로 결합하여 수행됩니다. 나머지 모든 범주가 지정된 검정 수준에서 서로 다르면 이 범주 병합 프로세스는 중지됩니다. 명목 입력 필드의 경우 범주가 병합될 수 있으며 순서 세트의 경우에는 연속형 범주만 병합될 수 있습니다.
Exhaustive CHAID는 각 예측자에 대한 모든 가능한 분할을 탐색하는 보다 전반적인 작업을 수행하지만 계산 시간이 오래 걸리는 CHAID의 수정 모델입니다.
플랫폼별
목표 및 입력 필드는 연속형 또는 범주형일 수 있습니다. 노드는 각 수준에서 두 개 이상의 하위 그룹으로 분할할 수 있습니다. 모델에서 사용되는 모든 서수 필드에는 숫자 저장 공간 (문자열이 아님) 이 있어야 합니다. 필요한 경우 재분류 노드를 사용하여 변환할 수 있습니다.
강점
C & R 트리 및 QUEST 노드와 달리 CHAID는 비이분형 트리를 생성할 수 있으며, 이는 일부 분할에 세 개 이상의 분기가 있음을 의미합니다. 이러한 이유로, CHAID는 이분형 성장 방법보다 더 넓은 트리를 작성하는 경향이 있습니다. CHAID는 모든 유형의 입력에 작용하며 케이스 가중치 및 빈도 변수를 모두 허용합니다.
사용자 정의된 계층
의사결정 트리를 분할할 위치를 판별할 때 CHAID 알고리즘이 사용해야 하는 필드를 지정하도록 CHAID 노드의 특성을 사용자 정의할 수 있습니다. SPSS Modeler 플로우가 실행되면 의사결정 트리는 분할할 때 해당 레이어에 대해 지정된 필드를 사용합니다. 여러 계층에 대한 필드를 지정하여 의사결정 트리의 각 분할을 제어할 수 있습니다.
사용자 정의 계층을 사용하여 의사결정 트리의 성장을 제어할 수 있습니다. 이 제어는 데이터 세트를 잘 알고 있거나 일부 사전 정의된 의사결정 규칙이 있는 경우 특히 유용합니다.
- CHAID 노드의 특성에서 Modeler 옵션을 펼치십시오.
- 계층 사용자 정의 선택란을 클릭하고 값 추가를 클릭하십시오.
- 행을 클릭하고 목록에서 필드의 이름을 선택하십시오.
- 값 추가 를 클릭하여 사용자 정의된 계층 테이블에 더 많은 행을 추가하십시오.