이 자습서에서는 분석을 위해 데이터를 준비하는 예제를 제공합니다. 데이터 준비는 모든 데이터 마이닝 프로젝트에서 가장 중요한 단계 중 하나이며, 전통적으로 가장 많은 시간이 소요되는 작업 중 하나입니다. 자동 데이터 준비 노드는 데이터를 분석하고 수정 사항을 식별하며, 문제가 있거나 유용하지 않을 것 같은 필드를 선별하고, 적절한 경우 새로운 속성을 도출하며, 지능형 선별 기술을 통해 성능을 개선하는 작업을 대신 처리합니다.
자동 데이터 준비 노드를 완전히 자동화된 방식으로 사용하여 노드가 수정 사항을 선택하여 적용할 수 있도록 하거나, 변경 사항이 적용되기 전에 미리 보고 수락 또는 거부할 수 있습니다. 이 노드를 사용하면 관련된 통계 개념에 대한 사전 지식 없이 빠르고 쉽게 데이터 마이닝을 위한 데이터를 준비할 수 있습니다. 기본 설정으로 노드를 실행하면 모델이 더 빨리 빌드되고 점수가 매겨지는 경향이 있습니다.
튜토리얼 미리보기
Copy link to section
비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 나오는 사용자 인터페이스와 약간의 차이가 있을 수 있습니다. 이 비디오는 글로 된 튜토리얼의 보조 자료로 제작되었습니다. 이 비디오는 이 문서에서 다루는 개념과 작업을 시각적으로 배울 수 있는 방법을 제공합니다.
이 튜토리얼에서는 샘플 프로젝트의 자동화된 데이터 준비 흐름을 사용합니다. 사용된 데이터 파일은 telco.csv. 이 예는 모델을 작성할 때 기본 자동 데이터 준비 노드 설정을 사용하면 정확도가 향상되는 것을 보여줍니다. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.
그림 1. 모델러 흐름 샘플
다음 이미지는 샘플 데이터 집합을 보여줍니다.그림 2. 샘플 데이터 세트
작업 1: 샘플 프로젝트 열기
Copy link to section
샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 샘플 프로젝트가 아직 없다면, 튜토리얼 항목을 참고하여 샘플 프로젝트를 만드십시오. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:
watsonx 의 탐색 메뉴 ( )에서 프로젝트(Projects) > 모든 프로젝트 보기(View all Projects)를 선택합니다.
SPSS Modeler 프로젝트를 클릭합니다.
자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.
진행 상황 확인
다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.
자동화된 데이터 준비가 없는 모델과 자동화된 데이터 준비가 있는 모델, 두 가지 모델을 구축하게 됩니다. 다음 단계에 따라 모델을 구축하세요:
유형 노드에 연결된 ADP 없음 - 이탈 노드를 두 번 클릭하여 해당 속성을 확인합니다.
모델 설정 섹션을 펼칩니다
' 절차 '이 ' 이항'로 설정되어 있는지 확인합니다.
모델 이름이사용자 지정으로 설정되어 있고 이름이 ' No ADP - churn'인지 확인합니다.그림 4. 물류 노드 모델 설정 섹션
ADP 없음 - 이탈 노드 위에 마우스를 올려놓고 실행 아이콘을 클릭합니다. .
출력 및 모델 창에서 ADP 없음 - 이탈이라는 이름의 모델을 클릭하여 결과를 확인합니다.
모델에서 사용하는 예측자 필드와 올바른 예측의 비율을 보여주는 ' 모델 요약 페이지를 확인합니다.
분석에 포함된 레코드의 수와 백분율을 보여주는 사례 처리 요약 보기를 확인합니다. 또한 하나 이상의 입력 필드가
사용 불가능하고 어떠한 케이스도 선택되지 않은 누락 케이스(있는 경우에 한함)의 수를 나열합니다.
모델 세부사항을 닫으십시오.
유형 노드에 연결된 자동 데이터 준비 노드를 두 번 클릭하여 해당 속성을 확인합니다. 자동화된 데이터 준비는 데이터를 분석하고 수정 사항을 식별하며, 문제가 있거나 유용하지 않을 것 같은 필드를 선별하고, 적절한 경우 새로운 속성을 도출하고, 지능형 선별 기술을 통해 성능을 개선하는 등 데이터 준비 작업을 대신 처리합니다.
목표 섹션에서 기본 설정을 그대로 두어 속도와 정확성의 균형을 맞춰 데이터를 분석하고 준비합니다. 다른 자동 데이터 준비 노드 속성에서는 정확도에 더 집중하거나 처리 속도에 더 집중하거나 데이터 준비를 위한 여러 처리 단계를 미세 조정하도록 지정할 수 있는 옵션을 제공합니다.
참고: 모델이 이미 존재하므로 노드 속성을 조정하고 나중에 흐름을 다시 실행하려면 먼저 목표 아래에서 이전 분석 지우기를 클릭한 다음 흐름을 다시 실행해야 합니다.
선택 사항입니다: 데이터 미리 보기를 클릭하여 자동 데이터 준비 속성이 적용된 데이터 집합을 확인합니다.
취소를 클릭합니다.
자동 데이터 준비 노드에 연결된 ADP 이후 - 이탈 노드를 두 번 클릭하여 해당 속성을 확인합니다.
모델 설정 섹션을 펼칩니다
' 절차 '이 ' 이항'로 설정되어 있는지 확인합니다.
모델 이름이사용자 지정으로 설정되어 있고 이름이 ' After ADP - churn'인지 확인합니다.
After ADP - churn 노드에 마우스를 갖다 대고 실행 아이콘 을 클릭합니다.
' 출력 및 모델 창에서 ' ADP 이후 - 이탈 '라는 이름의 모델을 클릭하여 결과를 확인합니다.
모델에서 사용하는 예측자 필드와 올바른 예측의 비율을 보여주는 ' 모델 요약 페이지를 확인합니다.
분석에 포함된 레코드의 수와 백분율을 보여주는 사례 처리 요약 보기를 확인합니다. 또한 하나 이상의 입력 필드가
사용 불가능하고 어떠한 케이스도 선택되지 않은 누락 케이스(있는 경우에 한함)의 수를 나열합니다.
본 사이트의 쿠키 정보웹 사이트가 제대로 작동하려면 일부 쿠키가 필요합니다(필수사항). 또한 다른 쿠키는 사이트 사용을 분석하고 사용자 경험을 개선하며 광고를 목적으로 귀하의 동의에 따라 사용될 수 있습니다.자세한 정보는 쿠키 환경 설정 옵션을 확인해 주시기 바랍니다. IBM 웹사이트를 방문함으로써 귀하는 IBM의개인정보처리방침에 따라 당사가 정보를 처리하는 것에 동의합니다.원활한 탐색을 제공하기 위해 귀하의 쿠키 환경 설정은 여기에 나열된 IBM 웹 도메인 전체에서 공유됩니다.