0 / 0
영어 버전 문서로 돌아가기
결측값이 있는 필드 처리
마지막 업데이트 날짜: 2024년 10월 07일
결측값이 있는 필드 처리(SPSS Modeler)

결측값의 대부분이 소수의 필드에 집중되어 있는 경우, 레코드 레벨이 아닌 필드 레벨에서 해결할 수 있습니다. 이 방법을 사용하면 결측값 처리를 위한 방법을 결정하기 전에 특정 필드의 상대적 중요성을 실험할 수 있습니다. 필드가 모델링에서 중요하지 않은 경우에는 결측값이 얼마나 많은지와는 관계없이 유지할 가치가 없을 수 있습니다.

예를 들어, 시장 조사 회사는 50개의 질문을 포함하는 일반 질문지에서 데이터를 수집할 수 있습니다. 질문 중 두 개는 연령과 정치적 신념 등 대다수의 사람이 응답을 꺼려하는 정보를 다룹니다. 이 경우, AgePolitical_persuasion에는 결측값이 많습니다.

필드 측정 수준

사용할 방법을 결정할 때 결측값이 있는 필드의 측정 수준 또한 고려해야 합니다.

숫자 필드. 숫자 필드 유형 (예: Continuous) 의 경우 숫자 필드에 공백이 포함되면 많은 모델이 작동하지 않으므로 모델을 작성하기 전에 항상 숫자가 아닌 값을 제거해야 합니다.

범주형 필드. 범주형 필드 (예: NominalFlag) 의 경우 결측값을 변경할 필요는 없지만 모델의 정확도가 높아집니다. 예를 들어, Sex 필드를 사용하는 모델은 YZ와 같은 의미 없는 값으로 계속 작동하지만 M F 이외의 모든 값을 제거하면 모델의 정확도가 증가합니다.

필드 선별 또는 제거

결측값이 너무 많은 필드를 선별하는 데에는 몇몇 옵션이 있습니다.

  • 데이터 검토 노드 를 사용하여 품질을 기반으로 필드를 필터링할 수 있습니다.
  • 필드선택 노드 를 사용하여 지정된 결측값 백분율을 초과하는 필드를 선별하고 지정된 목표에 상대적인 중요도를 기준으로 필드의 순위를 지정할 수 있습니다.
  • 필드를 제거하는 대신 유형 노드 를 사용하여 필드 역할을 없음으로 설정할 수 있습니다. 그러면 필드가 데이터 세트에 보존되지만 모델링 프로세스에서는 제외됩니다.
일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기