자동 분류자 노드는 단일 모델링 실행에서 다양한 접근법을 시도할 수 있도록 여러 다른 방법을 사용하여 명목(변수군)또는 이분형(예/아니오) 목표에 대해 모델을 추정하고 비교합니다. 사용할 알고리즘을 선택하고 여러 옵션을 조합하여 실험할 수 있습니다. 예를 들어, SVM의 방사형 기본 함수, 다항, 시그모이드 또는 선형 방법 중에서 선택하지 않고 이 방법을 모두 시도할 수 있습니다. 노드는 가능한 모든 옵션 조합을 탐색하고, 사용자가 지정한 측도에 기반하여 각 후보 모델을 순위화하고 추가 분석 또는 스코어링에 사용할 때 가장 효과적인 항목을 저장합니다.
- 예
- 한 소매업체에는 지난 캠페인의 특정 고객에 대한 오퍼를 추적하는 히스토리 데이터가 있습니다. 회사는 이제 각 고객에게 적절한 오퍼를 일치시켜 보다 수익성 있는 결과를 얻기를 원합니다.
- 플랫폼별
- 측정 수준이
Nominal
또는Flag
(역할이 대상으로 설정됨) 이고 하나 이상의 입력 필드 (역할이 입력으로 설정됨) 가 있는 대상 필드입니다. 플래그 필드의 경우 목표에 대해 정의된True
값은 이익, 리프트 및 관련 통계를 계산할 때 적중을 나타내는 것으로 가정됩니다. 입력 필드의 측정 수준은Continuous
또는Categorical
일 수 있지만 일부 입력은 일부 모델 유형에 적합하지 않을 수 있습니다. 예를 들어, C&R 트리, CHAID, QUEST 모델의 입력으로 사용된 순서 필드는 수치 저장 공간(문자열이 아닌)이 있어야 하며 다르게 지정될 경우 이러한 모델에서 무시됩니다. 마찬가지로, 연속형 입력 필드는 일부 경우 구간화될 수 있습니다. 요구 사항은 개별 모델링 노드를 사용할 때와 동일합니다. 예를 들어, Bayes Net 모델은 Bayes Net 노드에서 생성되든 자동 분류자 노드에서 생성되든 이에 상관없이 동일하게 작동합니다. - 빈도 및 가중치 필드
- 빈도 및 가중치는 다른 레코드에 비해 일부 레코드에 추가 중요도를 부여하는 용도로 사용되며, 이는 예를 들어, 작성 데이터 세트가 상위 모집단 섹션을 실제보다 낮게 표시(가중치)함을 사용자가 알고 있거나 한 레코드가 많은 동일한 케이스를 표시(빈도)하기 때문입니다. 빈도 필드는 지정된 경우 C&R 트리, CHAID, QUEST, 의사결정 목록, Bayes Net 모델에 사용될 수 있습니다. 가중치 필드는 C&RT, CHAID, C5.0 모델에 사용될 수 있습니다. 다른 모델 유형은 이러한 필드를 무시하고 모델을 작성합니다. 빈도 및 가중 필드는 모델 작성에만 사용되며 모델 평가 또는 스코어링 시에는 고려되지 않습니다.
- 접두부
- 자동 분류자 노드의 너깃에 테이블 노드를 첨부할 경우 $ 접두문자로 시작하는 이름의 테이블에 새 변수가 여러 개 있습니다.
지원되는 모델 유형
지원되는 모델 유형으로는 신경망, C&R 트리, QUEST, CHAID, C5.0, 로지스틱 회귀분석, 의사결정 목록, Bayes Net, 판별, 최근접 이웃, SVM, XGBoost Tree 및 XGBoost-AS가 있습니다.
교차 검증 설정
노드 특성에서 교차 검증 설정을 사용할 수 있습니다. 교차 검증 검사는 기계 학습 모델의 유효성(과적합 방지)을 테스트하는 데 유용한 기술이며, 제한된 데이터가 있는 경우 모델을 평가하는 데 사용할 수 있는 표본 재추출 프로시저이기도 합니다.
- 데이터 세트를 무작위로 섞습니다.
- 데이터 세트를 k-중첩/그룹으로 분할합니다.
- 고유한 중첩/그룹마다 다음을 수행합니다.
- 중첩/그룹을 보류 또는 테스트 데이터 세트로 설정합니다.
- 나머지 그룹을 훈련 데이터 세트로 설정합니다.
- 훈련 세트에 모델을 맞추고 테스트 세트에서 평가합니다.
- 평가 스코어를 유지하고 모델을 삭제합니다.
- 유지된 k-중첩 평가 스코어를 사용하여 모델의 전체적인 평가를 요약합니다.
교차 검증은 현재 자동 분류자 노드 및 자동 숫자 노드를 통해 지원합니다. 노드를 두 번 클릭하여 해당 특성을 여십시오. 교차 검증 옵션을 선택하면 단일 훈련/테스트 파티션이 사용 안함으로 설정되고 자동 노드가 k-중첩 교차 검증을 사용하여 선택한 다른 알고리즘 세트를 평가합니다.
중첩 수(K)를 지정할 수 있습니다. 기본값은 5이며 범위는 3 - 10입니다. 여러 실행에서 생성된 모델에 대해 일관된 최종 평가 측정값을 유지하기 위해 교차 검증 중 반복 가능한 샘플링을 보유하려는 경우, 반복 가능한 교차 검증 파티션 할당 옵션을 선택하면 됩니다. 결과 모델이 정확하게 재연 가능하도록 난수 시드를 특정 값으로 설정할 수도 있습니다. 또한 항상 동일한 시퀀스의 무작위 값을 생성하려면 생성을 클릭하십시오. 이 경우 노드를 실행하면 항상 동일한 모델이 생성됩니다.
연속 기계 학습
모델링에 대한 불편함은 시간에 따라 데이터가 변경되어 모델이 구식이 된다는 점입니다. 일반적으로 이 현상을 모델 드리프트 또는 개념 드리프트라고 합니다. 모델 드리프트를 효과적으로 극복하기 위해 SPSS Modeler는 지속적인 자동 시스템 학습을 제공합니다. 이 기능은 자동 분류자 노드 및 자동 숫자 노드 모델 너깃에 사용할 수 있습니다. 자세한 정보는 연속 머신 러닝을 참조하십시오.