0 / 0
영어 버전 문서로 돌아가기

자동 데이터 준비 노드

마지막 업데이트 날짜: 2025년 2월 12일
자동 데이터 준비 노드(SPSS Modeler)

분석을 위한 데이터 준비는 모든 프로젝트에서 가장 중요한 단계 중 하나이며 일반적으로 가장 많은 시간이 소요되는 단계 중 하나입니다. 자동 데이터 준비(ADP)는 데이터 분석, 수정사항 식별, 문제가 있거나 유용할 것 같지 않은 필드 필터링, 적절한 경우 새 속성 파생 및 지능형 선별 기술을 통한 성능 개선 등의 작업을 자동으로 처리합니다. 완전히 자동화된 방식으로 알고리즘을 사용하여 알고리즘이 수정사항을 선택하고 적용할 수 있도록 하거나, 대화식 방식으로 알고리즘을 사용하여 변경을 수행하기 전에 변경사항을 미리보고 원하는 바에 따라 변경사항을 수락하거나 거부할 수 있습니다.

ADP를 사용하면 관련된 통계 개념에 대한 사전 지식 없이 모델 작성을 위한 데이터를 쉽고 빠르게 준비할 수 있습니다. 모델은 더 빨리 작성되고 스코어링되는 경향이 있습니다.

참고: ADP에서 분석을 위해 필드를 준비하는 경우 이전 필드의 기존 값 및 특성을 대체하는 대신에 조정 또는 변환을 포함하는 새 필드를 작성합니다. . 이전 필드는 추가 분석에서 사용되지 않습니다(해당 역할이 없음으로 설정됨).

예. 자택 소유자의 보험 청구를 조사하기 위한 제한된 자원을 가진 보험 회사가 사기일 가능성이 높은 의심스러운 보험 청구를 플래그 지정하는 모델을 작성하려 합니다. 모델을 작성하기 전에 보험 회사는 자동 데이터 준비를 사용하여 모델링을 위한 데이터를 준비합니다. 변환이 적용되기 전에 제안된 변환을 검토할 수 있기를 원하므로 대화식 모드에서 자동 데이터 준비를 사용합니다.

자동차 산업 그룹은 다양한 개인용 자동차의 판매량을 추적합니다. 과성능 모델과 성능 미달 모델을 식별하기 위한 노력으로 자동차 판매량과 자동차 특성 사이의 관계를 설정하려 합니다. 자동 데이터 준비를 사용하여 분석을 위한 데이터를 준비하고 결과가 어떻게 다른지 확인하기 위해 준비 "전"과 "후"의 데이터를 사용하여 모델을 작성합니다.

사용자의 목표. 자동 데이터 준비에서는 모형을 작성하고 해당 모형의 예측력을 향상시킬 수 있는 다른 알고리즘을 사용하여 속도에 영향을 주는 데이터 준비 단계를 권장합니다. 여기에는 기능 변환, 생성 및 선택이 포함됩니다. 목표도 변환할 수 있습니다. 데이터 준비 프로세스가 집중해야 하는 모델 작성 우선순위를 지정할 수 있습니다.

  • 속도와 정확도의 균형. 이 옵션은 모델 작성 알고리즘이 데이터를 처리하는 속도와 예측의 정확도 둘 다에 동일한 우선순위를 부여하도록 데이터를 준비합니다.
  • 속도 최적화. 이 옵션은 모델 작성 알고리즘이 데이터를 처리하는 속도에 우선순위를 부여하도록 데이터를 준비합니다. 매우 큰 데이터 세트를 사용하여 작업하거나 빠른 해답을 찾으려면 이 옵션을 선택하십시오.
  • 정확도 최적화. 이 옵션은 모델 작성 알고리즘이 생성하는 예측의 정확도에 우선순위를 부여하도록 데이터를 준비합니다.
  • 사용자 정의 분석. 설정 탭에서 알고리즘을 수동으로 변경하려면 이 옵션을 선택하십시오. 이후 설정 탭에서 다른 목적 중 하나와 호환되지 않는 옵션을 변경하면 이 설정이 자동으로 선택됩니다.

노드 학습

ADP 노드는 프로세스 노드로 구현되고 유형 노드와 유사한 방식으로 작동합니다. ADP 노드를 훈련하는 것은 유형 노드를 인스턴스화하는 것에 해당합니다. 분석이 수행된 후 업스트림 데이터 모델이 변경되지 않는 한 추가 분석 없이 지정된 변환이 데이터에 적용됩니다. 유형 및 필터 노드와 마찬가지로, ADP 노드는 다시 연결될 때 다시 훈련하지 않아도 되도록 연결이 끊어질 때 데이터 모델 및 변환을 기억합니다. 이로 인해 일반 데이터 서브세트를 대상으로 ADP 노드를 훈련한 후 ADP 노드를 복사하거나 배포하여 필요한 만큼 자주 실시간 데이터를 대상으로 ADP 노드를 사용할 수 있습니다.