자동 숫자 노드는 여러 많은 방법을 사용하여 연속 숫자 범위 결과에 대한 모델을 추정하고 비교합니다. 이를 통해 단일 모델링 실행에서 다양한 접근 방식을 시도할 수 있습니다. 사용할 알고리즘을 선택하고 여러 옵션을 조합하여 실험할 수 있습니다. 예를 들어, 신경망, 선형 회귀, C&RT, CHAID 모델을 통해 하우징 값을 예측하여 가장 효과적으로 수행되는 항목을 확인하고, 단계 선택, 전진, 후진 회귀분석 방법을 다양하게 조합해볼 수 있습니다. 노드는 가능한 모든 옵션 조합을 탐색하고, 사용자가 지정한 측도에 기반하여 각 후보 모델을 순위화하고 추가 분석 또는 스코어링에 사용할 때 가장 효과적인 항목을 저장합니다.
- 예
- 지방 자치 단체에서 부동산 세금을 보다 정확히 추정하고 모든 자산을 검사하지 않고도 필요한 특정 특성의 값을 조정하고자 합니다. 자동 숫자 노드를 사용하면 분석가가 건물 유형, 이웃, 크기, 기타 알려진 요인에 기반하여 자산 가치를 예측하는 여러 모델을 생성하고 비교할 수 있습니다.
- 플랫폼별
- 단일 대상 필드(역할이 목표로 설정됨)와 하나 이상의 입력 필드(역할이 입력으로 설정됨). 목표는 연속형(숫자 범위, 예: 나이 또는 소득) 필드여야 합니다. 입력 필드는 연속형 또는 범주형으로, 일부 입력은 일부 모델 유형에 적합하지 않다는 제한사항이 있습니다. 예를 들어, C&R 트리 모델은 입력으로 범주형 문자열 필드를 사용하지만 선형 회귀 모형은 이 필드를 사용할 수 없으며 지정된 경우 해당 필드를 무시합니다. 요구 사항은 개별 모델링 노드를 사용할 때와 동일합니다. 예를 들어, CHAID 모델은 생성 위치(CHAID 노드 또는 자동 숫자 노드)에 상관없이 동일하게 작동합니다.
- 빈도 및 가중치 필드
- 빈도 및 가중치는 다른 레코드에 비해 일부 레코드에 추가 중요도를 부여하는 용도로 사용되며, 이는 예를 들어, 작성 데이터 세트가 상위 모집단 섹션을 실제보다 낮게 표시(가중치)함을 사용자가 알고 있거나 한 레코드가 많은 동일한 케이스를 표시(빈도)하기 때문입니다. 이를 지정한 경우 빈도 필드는 C&R 트리 및 CHAID 알고리즘에서 사용할 수 있습니다. 가중 필드는 C&RT, CHAID, 회귀분석, GenLin 알고리즘에서 사용할 수 있습니다. 다른 모델 유형은 이러한 필드를 무시하고 모델을 작성합니다. 빈도 및 가중 필드는 모델 작성에만 사용되고, 모델 평가 또는 스코어링에서는 고려되지 않습니다.
- 접두부
- 자동 숫자 노드의 너깃에 테이블 노드를 첨부할 경우 $ 접두문자로 시작하는 이름의 테이블에 새 변수가 여러 개 있습니다.
지원되는 모델 유형
지원되는 모델 유형으로는, 신경망, C&R 트리, CHAID, 회귀분석, GenLin, 최근접 이웃, SVM, XGBoost Linear, GLE 및 XGBoost-AS를 포함합니다.
교차 검증 설정
노드 특성에서 교차 검증 설정을 사용할 수 있습니다. 교차 검증 검사는 기계 학습 모델의 유효성(과적합 방지)을 테스트하는 데 유용한 기술이며, 제한된 데이터가 있는 경우 모델을 평가하는 데 사용할 수 있는 표본 재추출 프로시저이기도 합니다.
- 데이터 세트를 무작위로 섞습니다.
- 데이터 세트를 k-중첩/그룹으로 분할합니다.
- 고유한 중첩/그룹마다 다음을 수행합니다.
- 중첩/그룹을 보류 또는 테스트 데이터 세트로 설정합니다.
- 나머지 그룹을 훈련 데이터 세트로 설정합니다.
- 훈련 세트에 모델을 맞추고 테스트 세트에서 평가합니다.
- 평가 스코어를 유지하고 모델을 삭제합니다.
- 유지된 k-중첩 평가 스코어를 사용하여 모델의 전체적인 평가를 요약합니다.
교차 검증은 현재 자동 분류자 노드 및 자동 숫자 노드를 통해 지원합니다. 노드를 두 번 클릭하여 해당 특성을 여십시오. 교차 검증 옵션을 선택하면 단일 훈련/테스트 파티션이 사용 안함으로 설정되고 자동 노드가 k-중첩 교차 검증을 사용하여 선택한 다른 알고리즘 세트를 평가합니다.
중첩 수(K)를 지정할 수 있습니다. 기본값은 5이며 범위는 3 - 10입니다. 여러 실행에서 생성된 모델에 대해 일관된 최종 평가 측정값을 유지하기 위해 교차 검증 중 반복 가능한 샘플링을 보유하려는 경우, 반복 가능한 교차 검증 파티션 할당 옵션을 선택하면 됩니다. 결과 모델이 정확하게 재연 가능하도록 난수 시드를 특정 값으로 설정할 수도 있습니다. 또한 항상 동일한 시퀀스의 무작위 값을 생성하려면 생성을 클릭하십시오. 이 경우 노드를 실행하면 항상 동일한 모델이 생성됩니다.
연속 기계 학습
모델링에 대한 불편함은 시간에 따라 데이터가 변경되어 모델이 구식이 된다는 점입니다. 일반적으로 이 현상을 모델 드리프트 또는 개념 드리프트라고 합니다. 모델 드리프트를 효과적으로 극복하기 위해 SPSS Modeler는 지속적인 자동 시스템 학습을 제공합니다. 이 기능은 자동 분류자 노드 및 자동 숫자 노드 모델 너깃에 사용할 수 있습니다. 자세한 정보는 연속 머신 러닝을 참조하십시오.