SPSS Modeler 데이터 마이닝 및 입찰 모델을 시작하기 전에 데이터를 준비해야 합니다. 데이터를 준비한다는 것은 시간을 들여 데이터를 이해하고 데이터 마이닝에 사용하기에 최적화되도록 데이터를 처리하는 것을 의미합니다.
데이터의 품질에 따라 모델의 품질이 결정될 수 있습니다. 데이터를 준비하면 데이터가 깨끗하고 분석할 준비가 되어 있습니다.
SPSS Modeler 데이터 마이닝을 위한 산업 간 표준 프로세스(CRISP-DM) 방법론을 기반으로 구축되었습니다. 다음 단계로 구성됩니다.
- 비즈니스 이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 배치
이 중 처음 세 단계는 데이터를 수집, 평가 및 준비하는 단계입니다. 이 작업 중 일부는 SPSS Modeler 수행할 수 있지만, 이러한 단계의 일부 작업은 SPSS Modeler 작업하기 전에도 수행됩니다.
비즈니스 이해
SPSS Modeler 시작하기 전에 데이터 마이닝의 비즈니스 목표에 대해 가능한 한 많은 인사이트를 얻는 것이 중요합니다. 예를 들어, 비즈니스 관점을 이해하여 문제 지점, 프로젝트 요구 사항, 데이터 마이닝의 비즈니스 목표, 데이터 마이닝이 비즈니스 문제를 해결하는 데 유용한 정보를 제공하는 방법을 결정합니다.
이 데이터 수집 및 준비 단계는 SPSS Modeler 외부에서 이루어집니다. 하지만 이 작업을 통해 어떤 데이터를 수집해야 하는지, 어떤 데이터에 집중할 가치가 있는지를 결정할 수 있습니다.
데이터 이해
데이터를 이해하려면 데이터를 평가하고 데이터를 탐색하여 데이터의 품질을 파악해야 합니다. 데이터 시각화, 요약 통계, 상관관계 분석과 같은 기술을 사용하여 데이터 구조, 관계, 패턴을 이해하는 시간을 가져보세요. 이 단계는 데이터 준비 중 예기치 않은 문제를 방지하는 데 매우 중요합니다.
SPSS Modeler 데이터를 포괄적으로 살펴보는 데 사용할 수 있는 감사 노드가 있습니다. 요약 통계, 히스토그램, 박스 플롯, 막대 차트, 파이 차트 등과 같은 정보를 생성할 수 있습니다. 이 정보는 데이터를 미리 이해하는 데 유용할 수 있습니다. 또한 이상값, 극단값, 결측값에 대한 정보를 생성할 수도 있습니다.
Cloud Pak for Data 이러한 다른 서비스에 액세스할 수 있는 경우에도 유용하게 사용할 수 있습니다;
- Data Refinery
- Data Refinery 을 사용하여 데이터를 이해하고 시각화할 수 있습니다.
- MANTA Automated Data Lineage
- MANTA Automated Data Lineage 사용하여 데이터의 출처를 추적하고 찾을 수 있습니다.
- RStudio®
- RStudio 은 R에서 명령을 실행하여 데이터를 탐색하는 데 유용합니다.
데이터 준비
데이터 준비는 데이터 마이닝에서 가장 중요한 부분 중 하나이며, 전체 프로젝트에 필요한 작업의 상당 부분을 차지할 수 있습니다. 초기 비즈니스 이해 및 데이터 이해 단계에 노력을 기울이면 이 작업을 최소화할 수 있지만, 마이닝을 위해 데이터를 준비하고 패키징하는 데는 여전히 노력을 기울여야 합니다.
다음 활동을 통해 데이터를 준비하세요. 이러한 활동은 데이터가 잘 준비되고, 깨끗하며, 분석할 준비가 되어 있는지 확인하는 데 필요합니다.
- 데이터 정리
- 누락된 값을 처리하고, 중복을 제거하고, 서식 문제를 수정하는 것은 필수적입니다.
- 데이터 변환
- 데이터를 표준화하고 정규화하여 일관성을 보장하고 노이즈를 줄이세요. 이러한 단계에는 스케일링, z-점수 정규화 또는 원핫 인코딩이 포함될 수 있습니다.
- 데이터 축소
- 가장 관련성이 높은 기능을 선택하여 데이터의 차원을 줄이세요. 주성분 분석(PCA), 선형 판별 분석(LDA) 또는 t-분산 확률적 이웃 임베딩(t-SNE) 등의 기법을 사용할 수 있습니다.
- 데이터 통합
- 다양한 소스의 데이터를 병합하여 보다 포괄적인 데이터 보기를 만들 수 있습니다. 테이블 조인, 데이터 세트 병합 또는 데이터 융합 기술을 사용해야 할 수도 있습니다.
- 데이터 유효성 검증
- 데이터의 유효성을 검사하여 정확하고 신뢰할 수 있는지 확인합니다. 이상값을 확인하거나, 변동성을 평가하거나, 데이터를 외부 소스와 비교할 수 있습니다.
- 데이터 저장 공간
- 데이터를 안전하고 액세스 가능하며 재현 가능한 방식으로 저장하세요. 데이터베이스, 데이터 웨어하우스 또는 클라우드 스토리지 솔루션을 사용하여 데이터를 저장할 수 있습니다.
SPSS Modeler 이러한 데이터 준비 활동에 사용할 수 있는 여러 노드가 있습니다. 레코드 작업 노드와 필드 작업 노드를 조합하여 데이터를 준비하는 흐름을 만들 수 있습니다.
다음 서비스에 액세스할 수 있는 경우 해당 서비스를 사용하여 데이터를 준비할 수도 있습니다.
- Data Refinery
- 프로그래밍 기술 없이도 Data Refinery 을 사용하여 데이터를 정리하고 변환할 수 있습니다.
- DataStage
- 데이터 통합 및 데이터를 처리하고 변환하는 흐름을 개발하는 데 DataStage 을 사용할 수 있습니다.
- IBM® Knowledge Catalog
- IBM Knowledge Catalog 을 사용하여 데이터의 품질을 분석하고 개선할 수 있으며, 데이터 자산에 분류, 데이터 클래스 및 비즈니스 용어를 할당하는 데에도 사용할 수 있습니다
- RStudio
- RStudio 을 사용하여 R에서 명령을 실행하여 데이터를 탐색할 수 있습니다.
자신의 데이터가 아니더라도 사용자는 해당 데이터를 이해하기 위해 동일한 활동을 수행해야 합니다.