예측변수 선별
튜토리얼 미리보기
비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 나오는 사용자 인터페이스와 약간의 차이가 있을 수 있습니다. 이 비디오는 글로 된 튜토리얼의 보조 자료로 제작되었습니다. 이 비디오는 이 문서에 있는 개념과 작업을 시각적으로 배울 수 있는 방법을 제공합니다.
튜토리얼을 사용해 보세요
이 학습서에서는 다음 태스크를 완료합니다.
모델러 흐름 및 데이터 세트 샘플
이 튜토리얼에서는 샘플 프로젝트의 스크리닝 예측자 플로우를 사용합니다. 사용된 데이터 파일은 customer_dbase.csv. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.

- 기능 선택이 없습니다. 데이터 세트 내의 모든 예측변수 필드가 CHAID 트리에 대한 입력으로 사용됩니다.
- 기능 선택 사용. 기능 선택 노드는 최고의 예측자 10개를 선택하는 데 사용됩니다. 이러한 예측자는 CHAID 트리에 입력됩니다.
두 가지 결과 트리 모델을 비교하면 기능 선택이 어떻게 효과적인 결과를 가져올 수 있는지 확인할 수 있습니다.

작업 1: 샘플 프로젝트 열기
샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 샘플 프로젝트가 아직 없다면, 튜토리얼 항목을 참고하여 샘플 프로젝트를 만드십시오. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:
- watsonx 의 탐색 메뉴 (
)에서 프로젝트(Projects) > 모든 프로젝트 보기(View all Projects)를 선택합니다.
- SPSS Modeler 프로젝트를 클릭합니다.
- 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.
진행 상황 확인
다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.
작업 2: 데이터 자산 및 유형 노드 살펴보기
스크리닝 예측자에는 여러 노드가 포함되어 있습니다. 데이터 자산 및 유형 노드를 검토하려면 다음 단계를 따르세요:
- 자산 탭에서 심사 예측자 모델러 흐름을 열고 캔버스가 로드될 때까지 기다립니다.
- customer_dbase.csv 노드를 더블클릭합니다. 이 노드는 프로젝트의 customer_dbase.csv 파일을 가리키는 데이터 자산 노드입니다.
- 파일 형식 속성을 검토합니다.
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.
- 유형 노드를 두 번 클릭합니다. 이러한 각 필드에 대한 역할 값을 확인하세요:
- response_01 Target으로 설정됨
- response_02, response_03 및 custid는 없음으로 설정됩니다
- 다른 모든 필드는 입력으로 설정됩니다
그림 3. 노드 측정 수준 입력 - 값 읽기를 클릭합니다.
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 유형 속성이 적용된 데이터 집합을 확인합니다.
- 저장 을 클릭하십시오.
진행 상황 확인
다음 이미지는 Type 노드를 보여줍니다. 이제 모델을 구축할 준비가 되었습니다.

작업 3: 모델 구축
다음 단계에 따라 모델을 구축합니다:
- response_01 (기능 선택) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 작성 옵션 섹션을 확장하여 필드를 선별하거나 실격 처리하는 데 사용되는 정의된 규칙 및 기준을 확인합니다.
그림 4. 기능 선택 빌드 옵션 - response_01 (기능 선택) 노드 위에 마우스를 올려놓고 실행 아이콘을 클릭하세요.
.
- 출력 및 모델 창에서 response_01 이름의 모델을 클릭하여 모델을 확인합니다. 결과는 예측에 유용한 것으로 밝혀진 필드를 중요도에 따라 순위별로 표시합니다. 이러한 필드를 조사하여 후속 모델링 세션에서 사용할 필드를 결정할 수 있습니다.
기능 선택 없이 결과를 비교하려면 흐름에서 기능 선택을 사용하는 노드와 그렇지 않은 노드, 두 개의 CHAID 모델링 노드를 사용해야 합니다.
- 모든 필드 포함(CHAID) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 목표에서 새 모델 만들기 및 표준 모델 만들기가 선택되어 있는지 확인합니다.
- 기본 섹션을 확장하고 최대 트리 깊이가 커스텀으로 설정되어 있고 레벨 수가 '
5
'로 설정되어 있는지 확인합니다.
- 저장 을 클릭하십시오.
- 상위 10개 필드 사용(CHAID) 노드를 두 번 클릭하여 해당 속성을 확인합니다
- 모든 필드 포함(CHAID) 노드와 동일한 속성을 확인합니다.
- 저장 을 클릭하십시오.
진행 상황 확인
다음 이미지는 모델링 노드를 보여줍니다. 이제 플로우를 실행하고 결과를 볼 준비가 되었습니다.

작업 4: 흐름 실행 및 결과 보기
다음 단계에 따라 흐름을 실행하고 기능 선택이 있는 경우와 없는 경우의 두 모델의 결과를 확인합니다:
- 모두 실행(
)을 클릭하십시오. 실행하면서 각 모델이 빌드를 완료하는 데 걸리는 시간을 확인합니다.
- 출력 및 모델 창에서 이름이 모두 필드와 함께인 모델을 클릭하여 결과를 확인합니다.
- 트리 다이어그램 페이지를 클릭합니다.
- 축소하면 트리 다이어그램의 범위를 볼 수 있습니다.
- 모델 세부 정보 창을 닫습니다.
- 출력 및 모델 창에서 상위 10개 필드 사용이라는 이름의 모델 실행을 클릭하여 결과를 확인합니다.
- 트리 다이어그램 페이지를 클릭합니다.
- 축소하면 트리 다이어그램의 범위를 볼 수 있습니다.
두 번째 모델은 첫 번째 모델보다 빠르게 실행되었습니다. 이 데이터 세트는 상대적으로 작기 때문에 실행 시간의 차이는 몇 초에 불과하지만, 실제 데이터 세트가 더 큰 경우에는 그 차이가 몇 분 또는 몇 시간으로 눈에 띄게 커질 수 있습니다. 기능 선택을 사용하면 처리 시간을 크게 단축할 수 있습니다.
대신 트리 구축 알고리즘을 사용하여 기능 선택 작업을 수행하여 트리가 가장 중요한 예측 변수를 식별할 수 있도록 할 수 있습니다. 실제로, CHAID 알고리즘은 이러한 목적을 위해 종종 사용되며, 그 깊이와 복잡도를 제어하기 위해 트리 레벨 단위로 성장하는 것도 가능합니다. 그러나 기능 선택 노드는 더 빠르고 사용하기 쉽습니다. 한 번의 빠른 단계로 모든 예측 변수의 순위를 매겨 가장 중요한 분야를 빠르게 식별할 수 있도록 도와줍니다.
진행 상황 확인
다음 이미지는 모델의 트리 다이어그램을 보여줍니다.

요약
또한 두 번째 트리는 첫 번째 트리보다 더 적은 수의 트리 노드를 포함합니다. 따라서 이해하기가 더 쉽습니다. 더 적은 수의 예측변수를 사용하면 더 적은 비용이 듭니다. 즉, 데이터를 더 적게 수집하고 처리하고 모델에 피드할 수 있습니다. 계산 시간이 줄어듭니다. 이 예제에서는 추가 기능 선택 단계에서도 모델 빌드가 더 작은 예측변수 세트를 사용하여 더 빠릅니다. 실제 데이터 세트가 더 크면 시간 절약 효과가 크게 증폭될 수 있습니다.
더 적은 수의 예측변수를 사용하면 스코어링이 단순해집니다. 예를 들어, 판촉에 응답할 가능성이 있는 고객의 네 개의 프로파일만 식별할 수 있습니다. 예측자 수가 많을수록 모델이 과적합될 위험이 있습니다. 더 간단한 모델이 다른 데이터 집합에 더 잘 일반화될 수 있습니다(이 접근 방식을 테스트하여 확인해야 하지만).
다음 단계
이제 다른 SPSS® Modeler 튜토리얼을 시도해 볼 준비가 되었습니다.