SPSS Modeler 데이터 마이닝 및 입찰 모델을 시작하기 전에 데이터를 준비해야 합니다. 데이터를 준비한다는 것은 시간을 들여 데이터를 이해하고 데이터 마이닝에 사용하기에 최적화되도록 데이터를 처리하는 것을 의미합니다.
데이터의 품질에 따라 모델의 품질이 결정될 수 있습니다. 데이터를 준비하면 데이터가 깨끗하고 분석할 준비가 되어 있습니다.
SPSS Modeler 데이터 마이닝을 위한 산업 간 표준 프로세스(CRISP-DM) 방법론을 기반으로 구축되었습니다. 다음 단계로 구성됩니다.
비즈니스 이해
데이터 이해
데이터 준비
모델링
평가
배치
이 중 처음 세 단계는 데이터를 수집, 평가 및 준비하는 단계입니다. 이 작업 중 일부는 SPSS Modeler 수행할 수 있지만, 이러한 단계의 일부 작업은 SPSS Modeler 작업하기 전에도 수행됩니다.
비즈니스 이해
Copy link to section
SPSS Modeler 시작하기 전에 데이터 마이닝의 비즈니스 목표에 대해 가능한 한 많은 인사이트를 얻는 것이 중요합니다. 예를 들어, 비즈니스 관점을 이해하여 문제 지점, 프로젝트 요구 사항, 데이터 마이닝의 비즈니스 목표, 데이터 마이닝이 비즈니스 문제를 해결하는 데 유용한 정보를 제공하는 방법을 결정합니다.
이 데이터 수집 및 준비 단계는 SPSS Modeler 외부에서 이루어집니다. 하지만 이 작업을 통해 어떤 데이터를 수집해야 하는지, 어떤 데이터에 집중할 가치가 있는지를 결정할 수 있습니다.
데이터 이해
Copy link to section
데이터를 이해하려면 데이터를 평가하고 데이터를 탐색하여 데이터의 품질을 파악해야 합니다. 데이터 시각화, 요약 통계, 상관관계 분석과 같은 기술을 사용하여 데이터 구조, 관계, 패턴을 이해하는 시간을 가져보세요. 이 단계는 데이터 준비 중 예기치 않은 문제를 방지하는 데 매우 중요합니다.
SPSS Modeler 데이터를 포괄적으로 살펴보는 데 사용할 수 있는 감사 노드가 있습니다. 요약 통계, 히스토그램, 박스 플롯, 막대 차트, 파이 차트 등과 같은 정보를 생성할 수 있습니다. 이 정보는 데이터를 미리 이해하는 데 유용할 수 있습니다. 또한 이상값, 극단값, 결측값에 대한 정보를 생성할 수도 있습니다.
watsonx.ai 에서 이러한 다른 서비스에 액세스할 수 있는 경우에도 유용할 수 있습니다;
Data Refinery
Data Refinery 을 사용하여 데이터를 이해하고 시각화할 수 있습니다.
RStudio®
RStudio 은 R에서 명령을 실행하여 데이터를 탐색하는 데 유용합니다.
데이터 준비
Copy link to section
데이터 준비는 데이터 마이닝에서 가장 중요한 부분 중 하나이며, 전체 프로젝트에 필요한 작업의 상당 부분을 차지할 수 있습니다. 초기 비즈니스 이해 및 데이터 이해 단계에 노력을 기울이면 이 작업을 최소화할 수 있지만, 마이닝을 위해 데이터를 준비하고 패키징하는 데는 여전히 노력을 기울여야 합니다.
다음 활동을 통해 데이터를 준비하세요. 이러한 활동은 데이터가 잘 준비되고, 깨끗하며, 분석할 준비가 되어 있는지 확인하는 데 필요합니다.
데이터 정리
누락된 값을 처리하고, 중복을 제거하고, 서식 문제를 수정하는 것은 필수적입니다.
데이터 변환
데이터를 표준화하고 정규화하여 일관성을 보장하고 노이즈를 줄이세요. 이러한 단계에는 스케일링, z-점수 정규화 또는 원핫 인코딩이 포함될 수 있습니다.
데이터 축소
가장 관련성이 높은 기능을 선택하여 데이터의 차원을 줄이세요. 주성분 분석(PCA), 선형 판별 분석(LDA) 또는 t-분산 확률적 이웃 임베딩(t-SNE) 등의 기법을 사용할 수 있습니다.
데이터 통합
다양한 소스의 데이터를 병합하여 보다 포괄적인 데이터 보기를 만들 수 있습니다. 테이블 조인, 데이터 세트 병합 또는 데이터 융합 기술을 사용해야 할 수도 있습니다.
데이터 유효성 검증
데이터의 유효성을 검사하여 정확하고 신뢰할 수 있는지 확인합니다. 이상값을 확인하거나, 변동성을 평가하거나, 데이터를 외부 소스와 비교할 수 있습니다.
데이터 저장 공간
안전하고 액세스 가능하며 재현 가능한 방식으로 데이터를 저장하세요. 데이터베이스, 데이터 웨어하우스 또는 클라우드 스토리지 솔루션을 사용하여 데이터를 저장할 수 있습니다.
SPSS Modeler 이러한 데이터 준비 활동에 사용할 수 있는 여러 노드가 있습니다. 레코드 작업 노드와 필드 작업 노드를 조합하여 데이터를 준비하는 흐름을 만들 수 있습니다.
다음 서비스에 액세스할 수 있는 경우 해당 서비스를 사용하여 데이터를 준비할 수도 있습니다.
Data Refinery
프로그래밍 기술 없이도 Data Refinery 을 사용하여 데이터를 정리하고 변환할 수 있습니다.
RStudio
RStudio 을 사용하여 R에서 명령을 실행하여 데이터를 탐색할 수 있습니다.
자신의 데이터가 아니더라도 사용자는 해당 데이터를 이해하기 위해 동일한 활동을 수행해야 합니다.