이 튜토리얼에서는 입력 필드 값을 기반으로 레코드를 분류하는 통계 기법인 로지스틱 회귀 모델을 구축합니다. 선형 회귀와 유사하지만 숫자 필드 대신 범주형 대상 필드를 사용합니다.
예를 들어 한 통신업체가 경쟁업체에 빼앗기고 있는 고객 수가 걱정된다고 가정해 보겠습니다. 서비스 이용 데이터를 사용하여 다른 제공업체로 바꿀 가능성이 있는 고객을 예측할 수 있으면 가능한 한 많은 고객을 보유하도록 제안을 사용자 정의할 수 있습니다.
튜토리얼을 사용해 보세요
이 학습서에서는 다음 태스크를 완료합니다.
모델러 흐름 및 데이터 세트 샘플
이 튜토리얼에서는 샘플 프로젝트의 통신 이탈 플로우를 사용합니다. 사용된 데이터 파일은 telco.csv. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.
이 예에서는 고객 손실(서비스 제공자를 바꾸는 고객)을 예측하기 위한 사용 데이터에 초점을 맞춥니다. 대상에 두 개의 고유 범주가 있으므로 이항 모델이 사용됩니다. 대상에 여러 카테고리가 있는 경우 다항식 모델이 대신 생성될 수 있습니다.
다음 이미지는 이 모델러 흐름에 사용된 데이터 세트를 보여줍니다.
작업 1: 샘플 프로젝트 열기
샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 아직 샘플 프로젝트가 없는 경우 튜토리얼 주제를 참조하여 샘플 프로젝트를 만드세요. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:
- ' watsonx'의 탐색 메뉴 ' '에서 프로젝트 > 모든 프로젝트 보기를 선택합니다.
- SPSS Modeler 프로젝트를 클릭합니다.
- 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.
진행 상황 확인
다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.
작업 2: 데이터 자산 및 유형 노드 살펴보기
통신 이탈에는 여러 노드가 포함됩니다. 데이터 자산 및 유형 노드를 검토하려면 다음 단계를 따르세요:
- 자산 탭에서 통신 이탈 모델러 플로우를 열고 캔버스가 로드될 때까지 기다립니다.
- telco.csv 노드를 두 번 클릭합니다. 이 노드는 프로젝트의 telco.csv 파일을 가리키는 데이터 에셋 노드입니다.
- 파일 형식 속성을 검토합니다.
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.
- 유형 노드를 두 번 클릭합니다. 이 노드는 측정 수준(필드에 포함된 데이터 유형), 모델링에서 대상 또는 입력으로서 각 필드의 역할과 같은 필드 속성을 지정합니다. 모든 측정 레벨이 올바르게 설정되었는지 확인하세요. 예를 들어 값이 '
0.0
'과 '1.0
'인 대부분의 필드는 플래그로 간주할 수 있지만 성별과 같은 특정 필드는 두 개의 값을 가진 명목 필드로 보는 것이 더 정확합니다.churn
'이 Target 역할이 있는 플래그로 설정되어 있는 것을 확인합니다. 다른 모든 필드의 역할은 입력으로 설정됩니다. - 이탈(기능 선택) 모델링 노드를 두 번 클릭하여 해당 속성을 확인합니다. 기능 선택 노드를 사용하여 예측자/대상 관계에 대한 유용한 정보를 추가하지 않는 예측자 또는 데이터를 제거할 수 있습니다.
- 이탈 (기능 선택) 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
- 출력 및 모델 창에서 이탈이라는 이름이 있는 목록의 첫 번째 모델을 클릭하여 모델 세부 정보를 확인합니다.
진행 상황 확인
다음 이미지는 모델 세부 정보를 보여줍니다. 이제 필터 노드를 확인할 준비가 되었습니다.
작업 3: 필터 노드 확인
telco.csv 데이터 파일의 일부 데이터만 이탈을 예측하는 데 유용합니다. 필터를 사용하여 예측자로 사용하기에 중요하다고 간주되는 데이터(이전 작업에서 생성된 모델에서 중요로 표시된 필드)만 선택할 수 있습니다. 필터 노드를 확인하고 확인하려면 다음 단계를 따르세요:
- 중요 기능(필터) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 이 노드는 '
tenure
, 'age
' , 'address
' , 'income
' , 'ed
' , 'employ
' 등 선택한 필드만 필터링한다는 점에 유의하세요. 이 분석에서 다른 필드는 제외됩니다. - 취소를 클릭하십시오.
- 이 노드는 '
- 필터 노드 뒤에 있는 28개 필드(데이터 감사) 출력 노드를 두 번 클릭합니다.
- 데이터 감사 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
- 출력 및 모델 창에서 데이터 감사라는 이름의 결과를 클릭하여 출력을 확인합니다.
- 누락된 데이터가 많은 필드를 식별하는 데 사용할 수 있는 % 완료 열을 살펴보세요. 이 경우, 수정해야 하는 유일한 필드는
logtoll
이며 50% 미만이 완료됩니다. - 출력을 닫습니다.
- 누락된 값 추론 슈퍼노드를 더블클릭합니다.
- 슈퍼노드 보기를 클릭합니다.
- 로그톨 채우기(필러) 노드를 두 번 클릭합니다.필러 노드는 필드 값을 바꾸고 저장소를 변경하는 데 사용됩니다. 지정된 CLEM 조건(예:
@BLANK(FIELD)
)을 기준으로 값을 대체할 수 있습니다. 또는 모든 공백 또는 널값을 특정 값으로 대체할 것을 선택할 수 있습니다. 필러 노드는 누락된 값을 대체하기 위해 Type 노드와 함께 자주 사용됩니다.필드 채우기 섹션에서 값을 검사하고 바꾸려는 데이터 집합의 필드를 지정할 수 있습니다. 이 경우 'logtoll
' 열은 바꾸기 섹션 아래에 공백 및 null 값 옵션과 함께 지정됩니다. - 이전 흐름으로 돌아가기를 클릭합니다.
진행 상황 확인
다음 이미지는 플로우를 보여줍니다. 이제 모델을 구축할 준비가 되었습니다.
작업 4: 모델 구축
Logistic 노드를 사용하는 모델을 구축합니다. 다음 단계에 따라 모델을 구축합니다:
- 누락된 값 추론 슈퍼노드 뒤에 있는 이탈(물류) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 모델 설정 섹션에서 이항 절차를 선택합니다.
- 이항 모델은 대상 필드가 두 개의 불연속 값을 가진 플래그 또는 공칭 필드인 경우에 사용됩니다.
- 다항식 모델은 대상 필드가 두 개 이상의 값을 가진 명목 필드인 경우에 사용됩니다.
- 그런 다음 앞으로 단계별 방법을 선택합니다.
- 전문가 옵션 섹션에서 전문가 모드를 선택합니다.
- 출력을 클릭합니다. 각 단계에서, 반복 히스토리및 매개변수 추정값을 선택한 후 확인을 클릭하십시오.
진행 상황 확인
다음 이미지는 플로우를 보여줍니다. 이제 모델을 생성할 준비가 되었습니다.
작업 5: 모델 생성
Logistic 노드에서 모델 너겟을 생성하려면 다음 단계를 따르세요:
- 이탈(물류) 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
- 출력 및 모델 창에서 이탈 모델을 클릭하여 결과를 확인합니다.
방정식의 변수 페이지에는 모델에서 사용하는 대상(이탈) 및 입력(예측자 필드)이 표시됩니다. 이러한 필드는 검토를 위해 제출된 전체 목록이 아니라 앞으로 단계별 방법에 따라 선택됩니다.
모델이 데이터에 얼마나 잘 맞는지 평가하기 위해, 흐름을 구축할 때 전문가 노드 설정에서 몇 가지 진단을 사용할 수 있습니다.
이러한 결과가 학습 데이터에만 기반한다는 점을 참고하십시오. 모델이 실제 세계의 다른 데이터에 얼마나 잘 일반화되는지 평가하기 위해 테스트 및 유효성 검사를 위해 파티션 노드를 사용하여 레코드의 하위 집합을 보관합니다.
진행 상황 확인
다음 이미지는 모델 결과를 보여줍니다.
요약
이 예는 타겟이 두 가지 범주로 구분되어 있으므로 사용량 데이터를 사용하여 이항 모델을 구축하여 고객 손실(이탈)을 예측하는 방법을 보여 줍니다.
다음 단계
이제 다른 SPSS® Modeler 튜토리얼을 사용해 볼 준비가 되었습니다.