0 / 0
영어 버전 문서로 돌아가기
자동 숫자 노드
마지막 업데이트 날짜: 2024년 10월 04일
자동 숫자 노드(SPSS Modeler)

자동 숫자 노드는 여러 많은 방법을 사용하여 연속 숫자 범위 결과에 대한 모델을 추정하고 비교합니다. 이를 통해 단일 모델링 실행에서 다양한 접근 방식을 시도할 수 있습니다. 사용할 알고리즘을 선택하고 여러 옵션을 조합하여 실험할 수 있습니다. 예를 들어, 신경망, 선형 회귀, C&RT, CHAID 모델을 통해 하우징 값을 예측하여 가장 효과적으로 수행되는 항목을 확인하고, 단계 선택, 전진, 후진 회귀분석 방법을 다양하게 조합해볼 수 있습니다. 노드는 가능한 모든 옵션 조합을 탐색하고, 사용자가 지정한 측도에 기반하여 각 후보 모델을 순위화하고 추가 분석 또는 스코어링에 사용할 때 가장 효과적인 항목을 저장합니다.

지방 자치 단체에서 부동산 세금을 보다 정확히 추정하고 모든 자산을 검사하지 않고도 필요한 특정 특성의 값을 조정하고자 합니다. 자동 숫자 노드를 사용하면 분석가가 건물 유형, 이웃, 크기, 기타 알려진 요인에 기반하여 자산 가치를 예측하는 여러 모델을 생성하고 비교할 수 있습니다.
플랫폼별
단일 대상 필드(역할이 목표로 설정됨)와 하나 이상의 입력 필드(역할이 입력으로 설정됨). 목표는 연속형(숫자 범위, 예: 나이 또는 소득) 필드여야 합니다. 입력 필드는 연속형 또는 범주형으로, 일부 입력은 일부 모델 유형에 적합하지 않다는 제한사항이 있습니다. 예를 들어, C&R 트리 모델은 입력으로 범주형 문자열 필드를 사용하지만 선형 회귀 모형은 이 필드를 사용할 수 없으며 지정된 경우 해당 필드를 무시합니다. 요구 사항은 개별 모델링 노드를 사용할 때와 동일합니다. 예를 들어, CHAID 모델은 생성 위치(CHAID 노드 또는 자동 숫자 노드)에 상관없이 동일하게 작동합니다.
빈도 및 가중치 필드
빈도 및 가중치는 다른 레코드에 비해 일부 레코드에 추가 중요도를 부여하는 용도로 사용되며, 이는 예를 들어, 작성 데이터 세트가 상위 모집단 섹션을 실제보다 낮게 표시(가중치)함을 사용자가 알고 있거나 한 레코드가 많은 동일한 케이스를 표시(빈도)하기 때문입니다. 이를 지정한 경우 빈도 필드는 C&R 트리 및 CHAID 알고리즘에서 사용할 수 있습니다. 가중 필드는 C&RT, CHAID, 회귀분석, GenLin 알고리즘에서 사용할 수 있습니다. 다른 모델 유형은 이러한 필드를 무시하고 모델을 작성합니다. 빈도 및 가중 필드는 모델 작성에만 사용되고, 모델 평가 또는 스코어링에서는 고려되지 않습니다.
접두부
자동 숫자 노드의 너깃에 테이블 노드를 첨부할 경우 $ 접두문자로 시작하는 이름의 테이블에 새 변수가 여러 개 있습니다.
스코어링 중에 생성된 필드 이름은 표준 접두문자가 아닌 대상 필드를 기반으로 합니다. 서로 다른 모델 유형은 서로 다른 접두문자 집합을 사용합니다.
예를 들어 접두문자 $G, $R, $C는 각각 일반화 선형 모델, CHAID 모델, C5.0 모델에서 생성된 예측에 대한 접두문자로 사용됩니다. $X는 일반적으로 앙상블을 사용하여 생성되며, 대상 필드가 연속형, 범주형 또는 플래그 필드인 경우 $XR, $XS, $XF가 각각 접두문자로 사용됩니다.
$..E 접두문자는 범주형 대상의 예측 신뢰도에 사용됩니다. 예를 들어 $XRE는 앙상블 연속형 예측 신뢰도에 대한 접두문자로 사용됩니다. $GE는 일반화 선형 모델의 단일 신뢰도 예측에 대한 접두문자입니다.

지원되는 모델 유형

지원되는 모델 유형으로는, 신경망, C&R 트리, CHAID, 회귀분석, GenLin, 최근접 이웃, SVM, XGBoost Linear, GLE 및 XGBoost-AS를 포함합니다.

교차 검증 설정

노드 특성에서 교차 검증 설정을 사용할 수 있습니다. 교차 검증 검사는 기계 학습 모델의 유효성(과적합 방지)을 테스트하는 데 유용한 기술이며, 제한된 데이터가 있는 경우 모델을 평가하는 데 사용할 수 있는 표본 재추출 프로시저이기도 합니다.

K-중첩은 널리 사용되고 쉬운 교차 검증 방법입니다. 이 방법을 사용하면 원본 데이터 세트의 모든 관측값이 훈련 및 테스트 세트에 나타날 수 있기 때문에 일반적으로 단일 훈련/테스트 파티션에 비해 편향이 적은 모델이 생성됩니다. k-배 교차-검증의 일반적인 절차는 다음과 같다.
참고: 교차 검증 모드에서 병렬 자동 모델링 ( 모두 실행 단추를 통해 동시에 둘 이상의 자동 모델링 노드 실행) 은 현재 지원되지 않습니다. 임시 해결책으로 한 번에 하나씩 각 자동 모델링 노드 (교차 검증 사용, 기본적으로 사용 안함으로 설정됨) 를 실행할 수 있습니다.
  1. 데이터 세트를 무작위로 섞습니다.
  2. 데이터 세트를 k-중첩/그룹으로 분할합니다.
  3. 고유한 중첩/그룹마다 다음을 수행합니다.
    1. 중첩/그룹을 보류 또는 테스트 데이터 세트로 설정합니다.
    2. 나머지 그룹을 훈련 데이터 세트로 설정합니다.
    3. 훈련 세트에 모델을 맞추고 테스트 세트에서 평가합니다.
    4. 평가 스코어를 유지하고 모델을 삭제합니다.
  4. 유지된 k-중첩 평가 스코어를 사용하여 모델의 전체적인 평가를 요약합니다.

교차 검증은 현재 자동 분류자 노드 및 자동 숫자 노드를 통해 지원합니다. 노드를 두 번 클릭하여 해당 특성을 여십시오. 교차 검증 옵션을 선택하면 단일 훈련/테스트 파티션이 사용 안함으로 설정되고 자동 노드가 k-중첩 교차 검증을 사용하여 선택한 다른 알고리즘 세트를 평가합니다.

중첩 수(K)를 지정할 수 있습니다. 기본값은 5이며 범위는 3 - 10입니다. 여러 실행에서 생성된 모델에 대해 일관된 최종 평가 측정값을 유지하기 위해 교차 검증 중 반복 가능한 샘플링을 보유하려는 경우, 반복 가능한 교차 검증 파티션 할당 옵션을 선택하면 됩니다. 결과 모델이 정확하게 재연 가능하도록 난수 시드를 특정 값으로 설정할 수도 있습니다. 또한 항상 동일한 시퀀스의 무작위 값을 생성하려면 생성을 클릭하십시오. 이 경우 노드를 실행하면 항상 동일한 모델이 생성됩니다.

연속 기계 학습

모델링에 대한 불편함은 시간에 따라 데이터가 변경되어 모델이 구식이 된다는 점입니다. 일반적으로 이 현상을 모델 드리프트 또는 개념 드리프트라고 합니다. 모델 드리프트를 효과적으로 극복하기 위해 SPSS Modeler는 지속적인 자동 시스템 학습을 제공합니다. 이 기능은 자동 분류자 노드 및 자동 숫자 노드 모델 너깃에 사용할 수 있습니다. 자세한 정보는 연속 머신 러닝을 참조하십시오.

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기