통신 고객 이탈 예측
이 튜토리얼에서는 입력 필드 값을 기반으로 레코드를 분류하는 통계 기법인 로지스틱 회귀 모델을 구축합니다. 선형 회귀와 유사하지만 숫자 필드 대신 범주형 대상 필드를 사용합니다.
예를 들어 한 통신업체가 경쟁업체에 빼앗기고 있는 고객 수가 걱정된다고 가정해 보겠습니다. 서비스 이용 데이터를 사용하여 다른 제공업체로 바꿀 가능성이 있는 고객을 예측할 수 있으면 가능한 한 많은 고객을 보유하도록 제안을 사용자 정의할 수 있습니다.
튜토리얼 미리보기
비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 나오는 사용자 인터페이스와 약간의 차이가 있을 수 있습니다. 이 비디오는 글로 된 튜토리얼의 보조 자료로 제작되었습니다. 이 비디오는 이 문서에 있는 개념과 작업을 시각적으로 배울 수 있는 방법을 제공합니다.
튜토리얼을 사용해 보세요
이 학습서에서는 다음 태스크를 완료합니다.
모델러 흐름 및 데이터 세트 샘플
이 튜토리얼에서는 샘플 프로젝트의 통신 이탈 플로우를 사용합니다. 사용된 데이터 파일은 telco.csv. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.

이 예에서는 고객 손실(서비스 제공자를 바꾸는 고객)을 예측하기 위한 사용 데이터에 초점을 맞춥니다. 대상에 두 개의 고유 범주가 있으므로 이항 모델이 사용됩니다. 대상에 여러 카테고리가 있는 경우 다항식 모델이 대신 생성될 수 있습니다.
다음 이미지는 이 모델러 흐름에 사용된 데이터 세트를 보여줍니다.

작업 1: 샘플 프로젝트 열기
샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 샘플 프로젝트가 아직 없다면, 튜토리얼 항목을 참고하여 샘플 프로젝트를 만드십시오. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:
- watsonx 의 탐색 메뉴 (
)에서 프로젝트(Projects) > 모든 프로젝트 보기(View all Projects)를 선택합니다.
- SPSS Modeler 프로젝트를 클릭합니다.
- 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.
진행 상황 확인
다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.
작업 2: 데이터 자산 및 유형 노드 살펴보기
통신 이탈에는 여러 노드가 포함됩니다. 데이터 자산 및 유형 노드를 검토하려면 다음 단계를 따르세요:
- 자산 탭에서 통신 이탈 모델러 플로우를 열고 캔버스가 로드될 때까지 기다립니다.
- telco.csv 노드를 두 번 클릭합니다. 이 노드는 프로젝트의 telco.csv 파일을 가리키는 데이터 에셋 노드입니다.
- 파일 형식 속성을 검토합니다.
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.
- 유형 노드를 두 번 클릭합니다. 이 노드는 측정 수준(필드에 포함된 데이터 유형), 모델링에서 대상 또는 입력으로서 각 필드의 역할과 같은 필드 속성을 지정합니다. 모든 측정 레벨이 올바르게 설정되었는지 확인하세요. 예를 들어 값이 '
0.0
'과 '1.0
'인 대부분의 필드는 플래그로 간주할 수 있지만 성별과 같은 특정 필드는 두 개의 값을 가진 명목 필드로 보는 것이 더 정확합니다.그림 3. 측정 수준 churn
'이 Target 역할이 있는 플래그로 설정되어 있는 것을 확인합니다. 다른 모든 필드의 역할은 입력으로 설정됩니다. - 이탈(기능 선택) 모델링 노드를 두 번 클릭하여 해당 속성을 확인합니다. 기능 선택 노드를 사용하여 예측자/대상 관계에 대한 유용한 정보를 추가하지 않는 예측자 또는 데이터를 제거할 수 있습니다.
- 이탈(기능 선택) 노드 위에 마우스를 올려놓고 실행 아이콘을 클릭합니다.
.
- 출력 및 모델 창에서 이탈이라는 이름이 있는 목록의 첫 번째 모델을 클릭하여 모델 세부 정보를 확인합니다.
진행 상황 확인
다음 이미지는 모델 세부 정보를 보여줍니다. 이제 필터 노드를 확인할 준비가 되었습니다.

작업 3: 필터 노드 확인
telco.csv 데이터 파일의 일부 데이터만 이탈을 예측하는 데 유용합니다. 필터를 사용하여 예측자로 사용하기에 중요하다고 간주되는 데이터(이전 작업에서 생성된 모델에서 중요로 표시된 필드)만 선택할 수 있습니다. 필터 노드를 확인하고 확인하려면 다음 단계를 따르세요:
- 중요 기능(필터) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 이 노드는 '
tenure
, 'age
' , 'address
' , 'income
' , 'ed
' , 'employ
' 등 선택한 필드만 필터링한다는 점에 유의하세요. 이 분석에서 다른 필드는 제외됩니다.그림 4. 필터 노드 중요 기능 - 취소를 클릭하십시오.
- 이 노드는 '
- 필터 노드 뒤에 있는 28개 필드(데이터 감사) 출력 노드를 두 번 클릭합니다.
- 데이터 감사 노드 위에 마우스를 올려놓고 실행 아이콘을 클릭합니다.
.
- 출력 및 모델 창에서 데이터 감사라는 이름의 결과를 클릭하여 출력을 확인합니다.
- 누락된 데이터가 많은 필드를 식별하는 데 사용할 수 있는 % 완료 열을 살펴보세요. 이 경우, 수정해야 하는 유일한 필드는
logtoll
이며 50% 미만이 완료됩니다.그림 5. 28 필드 출력 - 출력을 닫습니다.
- 데이터 감사 노드 위에 마우스를 올려놓고 실행 아이콘을 클릭합니다.
- 누락된 값 추론 슈퍼노드를 더블클릭합니다.
- 슈퍼노드 보기를 클릭합니다.
- 로그톨 채우기(필러) 노드를 두 번 클릭합니다.필러 노드는 필드 값을 바꾸고 저장소를 변경하는 데 사용됩니다. 지정된 CLEM 조건(예:
@BLANK(FIELD)
)을 기준으로 값을 대체할 수 있습니다. 또는 모든 공백 또는 널값을 특정 값으로 대체할 것을 선택할 수 있습니다. 필러 노드는 누락된 값을 대체하기 위해 Type 노드와 함께 자주 사용됩니다.필드 채우기 섹션에서 값을 검사하고 바꾸려는 데이터 집합의 필드를 지정할 수 있습니다. 이 경우 'logtoll
' 열은 바꾸기 섹션 아래에 공백 및 null 값 옵션과 함께 지정됩니다.그림 6. 필러 속성이 있는 누락된 값 추론 슈퍼노드 - 이전 흐름으로 돌아가기를 클릭합니다.
진행 상황 확인
다음 이미지는 플로우를 보여줍니다. 이제 모델을 구축할 준비가 되었습니다.

작업 4: 모델 구축
Logistic 노드를 사용하는 모델을 구축합니다. 다음 단계에 따라 모델을 구축합니다:
- 누락된 값 추론 슈퍼노드 뒤에 있는 이탈(물류) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 모델 설정 섹션에서 이항 절차를 선택합니다.
- 이항 모델은 대상 필드가 두 개의 불연속 값을 가진 플래그 또는 공칭 필드인 경우에 사용됩니다.
- 다항식 모델은 대상 필드가 두 개 이상의 값을 가진 명목 필드인 경우에 사용됩니다.
- 그런 다음 앞으로 단계별 방법을 선택합니다.
- 전문가 옵션 섹션에서 전문가 모드를 선택합니다.
- 출력을 클릭합니다. 각 단계에서, 반복 히스토리및 매개변수 추정값을 선택한 후 확인을 클릭하십시오.
그림 7. 물류 노드 옵션
진행 상황 확인
다음 이미지는 플로우를 보여줍니다. 이제 모델을 생성할 준비가 되었습니다.

작업 5: 모델 생성
Logistic 노드에서 모델 너겟을 생성하려면 다음 단계를 따르세요:
- 이탈(Logistic) 노드에 마우스를 갖다 대고 실행 아이콘
을 클릭합니다.
- 출력 및 모델 창에서 이탈 모델을 클릭하여 결과를 확인합니다.
방정식의 변수 페이지에는 모델에서 사용하는 대상(이탈) 및 입력(예측자 필드)이 표시됩니다. 이러한 필드는 검토를 위해 제출된 전체 목록이 아니라 앞으로 단계별 방법에 따라 선택됩니다.
모델이 데이터에 얼마나 잘 맞는지 평가하기 위해, 흐름을 구축할 때 전문가 노드 설정에서 몇 가지 진단을 사용할 수 있습니다.
이러한 결과가 학습 데이터에만 기반한다는 점을 참고하십시오. 모델이 실제 세계의 다른 데이터에 얼마나 잘 일반화되는지 평가하기 위해 테스트 및 유효성 검사를 위해 파티션 노드를 사용하여 레코드의 하위 집합을 보관합니다.
진행 상황 확인
다음 이미지는 모델 결과를 보여줍니다.

요약
이 예는 타겟이 두 가지 범주로 구분되어 있으므로 사용량 데이터를 사용하여 이항 모델을 구축하여 고객 손실(이탈)을 예측하는 방법을 보여 줍니다.
다음 단계
이제 다른 SPSS® Modeler 튜토리얼을 시도해 볼 준비가 되었습니다.