데이터 준비 자동화
이 자습서에서는 분석을 위해 데이터를 준비하는 예제를 제공합니다. 데이터 준비는 모든 데이터 마이닝 프로젝트에서 가장 중요한 단계 중 하나이며, 전통적으로 가장 많은 시간이 소요되는 작업 중 하나입니다. 자동 데이터 준비 노드는 데이터를 분석하고 수정 사항을 식별하며, 문제가 있거나 유용하지 않을 것 같은 필드를 선별하고, 적절한 경우 새로운 속성을 도출하며, 지능형 선별 기술을 통해 성능을 개선하는 작업을 대신 처리합니다.
자동 데이터 준비 노드를 완전히 자동화된 방식으로 사용하여 노드가 수정 사항을 선택하여 적용할 수 있도록 하거나, 변경 사항이 적용되기 전에 미리 보고 수락 또는 거부할 수 있습니다. 이 노드를 사용하면 관련된 통계 개념에 대한 사전 지식 없이 빠르고 쉽게 데이터 마이닝을 위한 데이터를 준비할 수 있습니다. 기본 설정으로 노드를 실행하면 모델이 더 빨리 빌드되고 점수가 매겨지는 경향이 있습니다.
튜토리얼 미리보기
비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 나오는 사용자 인터페이스와 약간의 차이가 있을 수 있습니다. 이 비디오는 글로 된 튜토리얼의 보조 자료로 제작되었습니다. 이 비디오는 이 문서에서 다루는 개념과 작업을 시각적으로 배울 수 있는 방법을 제공합니다.
튜토리얼을 사용해 보세요
이 학습서에서는 다음 태스크를 완료합니다.
모델러 흐름 및 데이터 세트 샘플
이 튜토리얼에서는 샘플 프로젝트의 자동화된 데이터 준비 흐름을 사용합니다. 사용된 데이터 파일은 telco.csv. 이 예는 모델을 작성할 때 기본 자동 데이터 준비 노드 설정을 사용하면 정확도가 향상되는 것을 보여줍니다. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.


작업 1: 샘플 프로젝트 열기
샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 샘플 프로젝트가 아직 없다면, 튜토리얼 항목을 참고하여 샘플 프로젝트를 만드십시오. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:
- watsonx 의 탐색 메뉴 (
)에서 프로젝트(Projects) > 모든 프로젝트 보기(View all Projects)를 선택합니다.
- SPSS Modeler 프로젝트를 클릭합니다.
- 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.
진행 상황 확인
다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.
작업 2: 데이터 자산 및 유형 노드 살펴보기
자동화된 데이터 준비에는 여러 노드가 포함되어 있습니다. 데이터 자산 및 유형 노드를 검토하려면 다음 단계를 따르세요:
- 자산 탭에서 자동화된 데이터 준비 모델러 흐름을 열고 캔버스가 로드될 때까지 기다립니다.
- telco.csv 노드를 두 번 클릭합니다. 이 노드는 프로젝트의 telco.csv 파일을 가리키는 데이터 에셋 노드입니다.
- 파일 형식 속성을 검토합니다.
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.
- 유형 노드를 두 번 클릭합니다. '
churn
' 필드의 측정값이 Flag로 설정되어 있고 역할이 Target으로 설정되어 있는 것을 확인합니다. 다른 모든 필드의 역할이 입력으로 설정되어 있는지 확인합니다.그림 3. 측정 수준 및 역할 설정 - 선택 사항입니다: 데이터 미리 보기를 클릭하여 유형 속성이 적용된 데이터 집합을 확인합니다.
진행 상황 확인
다음 이미지는 Type 노드를 보여줍니다. 이제 모델을 구축할 준비가 되었습니다.

작업 3: 모델 구축
자동화된 데이터 준비가 없는 모델과 자동화된 데이터 준비가 있는 모델, 두 가지 모델을 구축하게 됩니다. 다음 단계에 따라 모델을 구축하세요:
- 유형 노드에 연결된 ADP 없음 - 이탈 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 모델 설정 섹션을 펼칩니다
- ' 절차 '이 ' 이항'로 설정되어 있는지 확인합니다.
- 모델 이름이 사용자 지정으로 설정되어 있고 이름이 ' No ADP - churn'인지 확인합니다.
그림 4. 물류 노드 모델 설정 섹션
- ADP 없음 - 이탈 노드 위에 마우스를 올려놓고 실행 아이콘을 클릭합니다.
.
- 출력 및 모델 창에서 ADP 없음 - 이탈이라는 이름의 모델을 클릭하여 결과를 확인합니다.
- 모델에서 사용하는 예측자 필드와 올바른 예측의 비율을 보여주는 ' 모델 요약 페이지를 확인합니다.
- 분석에 포함된 레코드의 수와 백분율을 보여주는 사례 처리 요약 보기를 확인합니다. 또한 하나 이상의 입력 필드가 사용 불가능하고 어떠한 케이스도 선택되지 않은 누락 케이스(있는 경우에 한함)의 수를 나열합니다.
- 모델 세부사항을 닫으십시오.
- 유형 노드에 연결된 자동 데이터 준비 노드를 두 번 클릭하여 해당 속성을 확인합니다. 자동화된 데이터 준비는 데이터를 분석하고 수정 사항을 식별하며, 문제가 있거나 유용하지 않을 것 같은 필드를 선별하고, 적절한 경우 새로운 속성을 도출하고, 지능형 선별 기술을 통해 성능을 개선하는 등 데이터 준비 작업을 대신 처리합니다.
- 목표 섹션에서 기본 설정을 그대로 두어 속도와 정확성의 균형을 맞춰 데이터를 분석하고 준비합니다. 다른 자동 데이터 준비 노드 속성에서는 정확도에 더 집중하거나 처리 속도에 더 집중하거나 데이터 준비를 위한 여러 처리 단계를 미세 조정하도록 지정할 수 있는 옵션을 제공합니다.참고: 모델이 이미 존재하므로 노드 속성을 조정하고 나중에 흐름을 다시 실행하려면 먼저 목표 아래에서 이전 분석 지우기를 클릭한 다음 흐름을 다시 실행해야 합니다.
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 자동 데이터 준비 속성이 적용된 데이터 집합을 확인합니다.
- 취소를 클릭합니다.
- 목표 섹션에서 기본 설정을 그대로 두어 속도와 정확성의 균형을 맞춰 데이터를 분석하고 준비합니다. 다른 자동 데이터 준비 노드 속성에서는 정확도에 더 집중하거나 처리 속도에 더 집중하거나 데이터 준비를 위한 여러 처리 단계를 미세 조정하도록 지정할 수 있는 옵션을 제공합니다.
- 자동 데이터 준비 노드에 연결된 ADP 이후 - 이탈 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 모델 설정 섹션을 펼칩니다
- ' 절차 '이 ' 이항'로 설정되어 있는지 확인합니다.
- 모델 이름이 사용자 지정으로 설정되어 있고 이름이 ' After ADP - churn'인지 확인합니다.
- After ADP - churn 노드에 마우스를 갖다 대고 실행 아이콘
을 클릭합니다.
- ' 출력 및 모델 창에서 ' ADP 이후 - 이탈 '라는 이름의 모델을 클릭하여 결과를 확인합니다.
- 모델에서 사용하는 예측자 필드와 올바른 예측의 비율을 보여주는 ' 모델 요약 페이지를 확인합니다.
- 분석에 포함된 레코드의 수와 백분율을 보여주는 사례 처리 요약 보기를 확인합니다. 또한 하나 이상의 입력 필드가 사용 불가능하고 어떠한 케이스도 선택되지 않은 누락 케이스(있는 경우에 한함)의 수를 나열합니다.
- 모델 세부사항을 닫으십시오.
진행 상황 확인
다음 이미지에는 모델 세부 정보가 나와 있습니다. 이제 모델을 비교할 준비가 되었습니다.

작업 4: 모델 비교
이제 두 모델이 모두 구성되었으므로 다음 단계에 따라 모델을 생성하고 비교합니다:
- No ADP - LogReg (분석) 노드에 마우스를 갖다 대고 실행 아이콘
을 클릭합니다.
- After ADP - LogReg (분석) 노드에 마우스를 갖다 대고, 실행 아이콘
을 클릭합니다.
- 출력 및 모델 창에서 No ADP - LogReg 이름의 출력 결과를 클릭하여 결과를 확인합니다.
- 모델을 비교하세요:
- 비교를 클릭합니다.
- 출력 선택 필드에서 ADP 이후 - LogReg 선택합니다.
파생되지 않은 자동 데이터 준비 모델을 분석한 결과, 기본 설정으로 로지스틱 회귀 노드를 통해 데이터를 실행하는 것만으로도 10.6 낮은 정확도의 모델을 얻을 수 있습니다.그림 5. ADP에서 파생되지 않은 모델 결과 자동 데이터 준비 파생 모델을 분석한 결과, 기본 자동 데이터 준비 설정을 통해 데이터를 실행하면 78.3 정확도로 훨씬 더 정확한 모델을 구축한 것으로 나타났습니다.그림 6. ADP에서 파생된 모델 결과
진행 상황 확인
다음 이미지는 모델 비교를 보여줍니다.

요약
자동 데이터 준비 노드를 실행하여 데이터 처리를 미세 조정함으로써 직접적인 데이터 조작을 거의 하지 않고도 보다 정확한 모델을 구축할 수 있었습니다.
특정 이론을 증명하거나 반증하는 데 관심이 있거나 특정 모델을 구축하려는 경우 모델 설정으로 직접 작업하는 것이 유용할 수 있습니다. 그러나 시간이 제한되어 있거나 준비해야 할 데이터가 많은 경우 자동 데이터 준비 노드를 사용하면 이점을 얻을 수 있습니다.
이 예제의 결과는 학습 데이터만을 기반으로 합니다. 모델이 실제 세계에서 다른 데이터로 얼마나 잘 일반화되는지 평가하기 위해 파티션 노드를 사용하여 테스트 및 유효성 검사를 위해 레코드의 하위 집합을 보관할 수 있습니다.
다음 단계
이제 다른 SPSS® Modeler 튜토리얼을 시도해 볼 준비가 되었습니다.