통신 고객 분류
이 튜토리얼에서는 입력 필드 값을 기반으로 레코드를 분류하는 통계 기법인 로지스틱 회귀 모델을 구축합니다. 선형 회귀와 유사하지만 숫자 1대신 범주형 대상 필드를 사용합니다.
예를 들어 한 통신 사업자가 서비스 사용 패턴에 따라 고객 기반을 세분화하여 고객을 네 그룹으로 분류했다고 가정해 보겠습니다. 소속 그룹을 예측하기 위해 인구 통계학적 데이터를 사용하면 개별 잠재 고객에 대한 오퍼를 사용자 정의할 수 있습니다.
튜토리얼 미리보기
비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 나오는 사용자 인터페이스와 약간의 차이가 있을 수 있습니다. 이 비디오는 글로 된 튜토리얼의 보조 자료로 제작되었습니다. 이 비디오는 이 문서에 있는 개념과 작업을 시각적으로 배울 수 있는 방법을 제공합니다.
튜토리얼을 사용해 보세요
이 학습서에서는 다음 태스크를 완료합니다.
모델러 흐름 및 데이터 세트 샘플
이 튜토리얼에서는 샘플 프로젝트의 통신 고객 분류 플로우를 사용합니다. 사용된 데이터 파일은 telco.csv. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.

다음 이미지는 이 모델러 흐름에 사용된 데이터 세트를 보여줍니다.

custcat
에는 다음과 같이 네 개의 고객 그룹에 해당하는 네 개의 가능한 값이 있습니다.값 | 레이블 |
---|---|
1 | 기본 서비스 |
2 | E-서비스 |
3 | 플러스 서비스 |
4 | 전체 서비스 |
대상에 다중 범주가 있으므로 다항 모델이 사용됩니다. 대상에 예/아니요, 참/거짓 또는 이탈/이탈하지 않음과 같이 두 가지 범주가 있는 경우 이항 모델을 대신 생성할 수 있습니다.
작업 1: 샘플 프로젝트 열기
샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 샘플 프로젝트가 아직 없다면, 튜토리얼 항목을 참고하여 샘플 프로젝트를 만드십시오. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:
- watsonx 의 탐색 메뉴 (
)에서 프로젝트(Projects) > 모든 프로젝트 보기(View all Projects)를 선택합니다.
- SPSS Modeler 프로젝트를 클릭합니다.
- 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.
진행 상황 확인
다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.
작업 2: 데이터 자산, 유형 및 필터 노드 살펴보기
통신 고객 분류 모델러 흐름에는 여러 노드가 포함되어 있습니다. 다음 단계에 따라 세 개의 노드를 검사합니다:
- 자산 탭에서 통신 고객 분류 모델러 플로우를 열고 캔버스가 로드될 때까지 기다립니다.
- telco.csv 노드를 두 번 클릭합니다. 이 노드는 프로젝트의 telco.csv 파일을 가리키는 데이터 에셋 노드입니다.
- 파일 형식 속성을 검토합니다.
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.
- 유형 노드를 두 번 클릭하고 값 읽기를 클릭합니다. 이 노드는 측정 수준(필드에 포함된 데이터 유형), 모델링에서 대상 또는 입력으로서 각 필드의 역할과 같은 필드 속성을 지정합니다. 모든 측정 레벨이 올바르게 설정되었는지 확인하세요. 예를 들어,
0.0
및1.0
값이 있는 대부분의 필드를 플래그로 간주할 수 있습니다.그림 3. 측정 수준 gender
'은 플래그가 아닌 두 개의 값 집합이 있는 필드로 간주하는 것이 더 정확하므로 측정값은 공칭으로 남겨둡니다. custcat
필드의 역할을 대상으로 설정하십시오. 다른 모든 필드에 대한 역할을 입력으로 설정된 상태로 두십시오.- 필터 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 이 노드는 관련 필드만 필터링합니다: '
region
, 'age
' , 'marital
' , 'address
' , 'income
' , 'ed
' , 'employ
' , 'retire
' , 'gender
' , 'reside
' , 그리고 'custcat
' ). 이 분석에서 다른 필드는 제외됩니다.
진행 상황 확인
다음 이미지는 필터 노드를 보여줍니다. 이제 Logistic 노드를 볼 준비가 되었습니다.

작업 3: 물류 노드 보기
다항 로지스틱 회귀를 사용하여 고객을 분류하려면 다음 단계를 따르세요:
- 커스트캣(물류) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 모델 설정 섹션에서 다항식 절차를 선택합니다.
- 이항 모델은 대상 필드가 두 개의 불연속 값을 가진 플래그 또는 공칭 필드인 경우에 사용됩니다.
- 다항식 모델은 대상 필드가 두 개 이상의 값을 가진 명목 필드인 경우에 사용됩니다.
- 그런 다음 단계별 방법과 주 효과 모델 유형을 선택합니다. 또한 방정식에 상수 포함 확인란을 선택합니다.
그림 4. 물류 노드 모델 설정 - 전문가 옵션 섹션에서 전문가 모드를 선택합니다.
- 출력을 클릭합니다. 분류 표를 선택하고 확인을 클릭합니다.
그림 5. 물류 노드 출력 옵션
진행 상황 확인
다음 이미지는 로지스틱 노드를 보여줍니다. 이제 모델을 탐색할 준비가 되었습니다.

작업 4: 모델 찾아보기
모델을 찾아보려면 다음 단계를 따르세요:
- custcat(물류) 노드 위에 마우스를 올려놓고 실행 아이콘을 클릭하세요.
.
- 출력 및 모델 창에서 커스트캣 모델을 클릭하여 결과를 확인합니다.
그림 6. 모델 기능 중요도 차트
그런 다음 모델 정보, 기능(예측변수) 중요도 및 매개변수 추정값 정보를 탐색할 수 있습니다.
이러한 결과는 학습 데이터만을 기반으로 합니다. 모델이 실제 세계의 다른 데이터에 얼마나 잘 일반화되는지 평가하기 위해 테스트 및 유효성 검사를 위해 파티션 노드를 사용하여 레코드의 하위 집합을 보관할 수 있습니다.
진행 상황 확인
요약
이 예에서는 인구 통계 데이터를 사용하여 입력 필드 값을 기반으로 레코드를 분류하는 로지스틱 회귀 모델을 구축하여 사용 패턴을 예측하는 방법을 보여 줍니다.
다음 단계
이제 다른 SPSS® Modeler 튜토리얼을 시도해 볼 준비가 되었습니다.