예측변수 선별 | IBM watsonx

영어 버전 문서로 돌아가기

예측변수 선별

마지막 업데이트 날짜: 2024년 12월 12일

예측변수 선별

이 튜토리얼에서는 기능 선택 노드를 사용하여 특정 결과를 예측하는 데 가장 중요한 필드를 식별하는 데 도움을 줍니다. 기능 선택 노드는 수백 개 또는 수천 개의 예측자 집합에서 가장 중요할 수 있는 예측자를 선별하고 순위를 매겨 선택합니다. 궁극적으로 더 적은 수의 예측자를 사용하고, 더 빠르게 실행되며, 더 이해하기 쉬운 더 빠르고 효율적인 모델을 만들 수 있습니다.

튜토리얼을 사용해 보세요

이 학습서에서는 다음 태스크를 완료합니다.

작업 1: 샘플 프로젝트 열기
작업 2: 데이터 자산 및 유형 노드 살펴보기
작업 3: 모델 구축
작업 4: 흐름 실행 및 결과 보기

모델러 흐름 및 데이터 세트 샘플

이 튜토리얼에서는 샘플 프로젝트의 스크리닝 예측자 플로우를 사용합니다. 사용된 데이터 파일은 customer_dbase.csv. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.

이 예에서는 대상으로 한 오퍼에만 초점을 맞춥니다. CHAID 트리 구축 노드를 사용하여 어떤 고객이 프로모션에 응답할 가능성이 가장 높은지 설명하는 모델을 개발합니다. 여기에는 두 가지 접근법이 있습니다.

기능 선택이 없습니다. 데이터 세트 내의 모든 예측변수 필드가 CHAID 트리에 대한 입력으로 사용됩니다.
기능 선택 사용. 기능 선택 노드는 최고의 예측자 10개를 선택하는 데 사용됩니다. 이러한 예측자는 CHAID 트리에 입력됩니다.

두 가지 결과 트리 모델을 비교하면 기능 선택이 어떻게 효과적인 결과를 가져올 수 있는지 확인할 수 있습니다.

다음 이미지는 샘플 데이터 집합을 보여줍니다.

작업 1: 샘플 프로젝트 열기

샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 아직 샘플 프로젝트가 없는 경우 튜토리얼 주제를 참조하여 샘플 프로젝트를 만드세요. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:

' watsonx'의 탐색 메뉴 ' '에서 프로젝트 > 모든 프로젝트 보기를 선택합니다.
SPSS Modeler 프로젝트를 클릭합니다.
자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.

진행 상황 확인

다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.

샘플 프로젝트

맨 위로 돌아가기

작업 2: 데이터 자산 및 유형 노드 살펴보기

스크리닝 예측자에는 여러 노드가 포함되어 있습니다. 데이터 자산 및 유형 노드를 검토하려면 다음 단계를 따르세요:

자산 탭에서 심사 예측자 모델러 흐름을 열고 캔버스가 로드될 때까지 기다립니다.
customer_dbase.csv 노드를 더블클릭합니다. 이 노드는 프로젝트의 customer_dbase.csv 파일을 가리키는 데이터 자산 노드입니다.
파일 형식 속성을 검토합니다.
선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.
유형 노드를 두 번 클릭합니다. 이러한 각 필드에 대한 역할 값을 확인하세요:
- response_01 Target으로 설정됨
- response_02, response_03 및 custid는 없음으로 설정됩니다
- 다른 모든 필드는 입력으로 설정됩니다
그림 3. 노드 측정 수준 입력
값 읽기를 클릭합니다.
선택 사항입니다: 데이터 미리 보기를 클릭하여 유형 속성이 적용된 데이터 집합을 확인합니다.
저장 을 클릭하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 Type 노드를 보여줍니다. 이제 모델을 구축할 준비가 되었습니다.

맨 위로 돌아가기

작업 3: 모델 구축

다음 단계에 따라 모델을 구축합니다:

response_01 (기능 선택) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
작성 옵션 섹션을 확장하여 필드를 선별하거나 실격 처리하는 데 사용되는 정의된 규칙 및 기준을 확인합니다.
그림 4. 기능 선택 빌드 옵션
response_01 (기능 선택) 노드 위로 마우스를 가져간 후 실행 아이콘 ' '을 클릭합니다.
출력 및 모델 창에서 response_01 이름의 모델을 클릭하여 모델을 확인합니다. 결과는 예측에 유용한 것으로 밝혀진 필드를 중요도에 따라 순위별로 표시합니다. 이러한 필드를 조사하여 후속 모델링 세션에서 사용할 필드를 결정할 수 있습니다.
기능 선택 없이 결과를 비교하려면 흐름에서 기능 선택을 사용하는 노드와 그렇지 않은 노드, 두 개의 CHAID 모델링 노드를 사용해야 합니다.
모든 필드 포함(CHAID) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
1. 목표에서 새 모델 만들기 및 표준 모델 만들기가 선택되어 있는지 확인합니다.
2. 기본 섹션을 확장하고 최대 트리 깊이가 커스텀으로 설정되어 있고 레벨 수가 ' 5'로 설정되어 있는지 확인합니다.
저장 을 클릭하십시오.
상위 10개 필드 사용(CHAID) 노드를 두 번 클릭하여 해당 속성을 확인합니다
1. 모든 필드 포함(CHAID) 노드와 동일한 속성을 확인합니다.
2. 저장 을 클릭하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 모델링 노드를 보여줍니다. 이제 플로우를 실행하고 결과를 볼 준비가 되었습니다.

맨 위로 돌아가기

작업 4: 흐름 실행 및 결과 보기

다음 단계에 따라 흐름을 실행하고 기능 선택이 있는 경우와 없는 경우의 두 모델의 결과를 확인합니다:

'' 모두 실행을 클릭합니다. 실행하면서 각 모델이 빌드를 완료하는 데 걸리는 시간을 확인합니다.
출력 및 모델 창에서 이름이 모두 필드와 함께인 모델을 클릭하여 결과를 확인합니다.
1. 트리 다이어그램 페이지를 클릭합니다.
2. 축소하면 트리 다이어그램의 범위를 볼 수 있습니다.
3. 모델 세부 정보 창을 닫습니다.
출력 및 모델 창에서 상위 10개 필드 사용이라는 이름의 모델 실행을 클릭하여 결과를 확인합니다.
1. 트리 다이어그램 페이지를 클릭합니다.
2. 축소하면 트리 다이어그램의 범위를 볼 수 있습니다.
두 번째 모델은 첫 번째 모델보다 빠르게 실행되었습니다. 이 데이터 세트는 상대적으로 작기 때문에 실행 시간의 차이는 몇 초에 불과하지만, 실제 데이터 세트가 더 큰 경우에는 그 차이가 몇 분 또는 몇 시간으로 눈에 띄게 커질 수 있습니다. 기능 선택을 사용하면 처리 시간을 크게 단축할 수 있습니다.

대신 트리 구축 알고리즘을 사용하여 기능 선택 작업을 수행하여 트리가 가장 중요한 예측 변수를 식별할 수 있도록 할 수 있습니다. 실제로, CHAID 알고리즘은 이러한 목적을 위해 종종 사용되며, 그 깊이와 복잡도를 제어하기 위해 트리 레벨 단위로 성장하는 것도 가능합니다. 그러나 기능 선택 노드는 더 빠르고 사용하기 쉽습니다. 한 번의 빠른 단계로 모든 예측 변수의 순위를 매겨 가장 중요한 분야를 빠르게 식별할 수 있도록 도와줍니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 모델의 트리 다이어그램을 보여줍니다.

맨 위로 돌아가기

요약

또한 두 번째 트리는 첫 번째 트리보다 더 적은 수의 트리 노드를 포함합니다. 따라서 이해하기가 더 쉽습니다. 더 적은 수의 예측변수를 사용하면 더 적은 비용이 듭니다. 즉, 데이터를 더 적게 수집하고 처리하고 모델에 피드할 수 있습니다. 계산 시간이 줄어듭니다. 이 예제에서는 추가 기능 선택 단계에서도 모델 빌드가 더 작은 예측변수 세트를 사용하여 더 빠릅니다. 실제 데이터 세트가 더 크면 시간 절약 효과가 크게 증폭될 수 있습니다.

더 적은 수의 예측변수를 사용하면 스코어링이 단순해집니다. 예를 들어, 판촉에 응답할 가능성이 있는 고객의 네 개의 프로파일만 식별할 수 있습니다. 예측자 수가 많을수록 모델이 과적합될 위험이 있습니다. 더 간단한 모델이 다른 데이터 집합에 더 잘 일반화될 수 있습니다(이 접근 방식을 테스트하여 확인해야 하지만).

다음 단계

이제 다른 SPSS® Modeler 튜토리얼을 사용해 볼 준비가 되었습니다.