영어 버전 문서로 돌아가기결측값이 있는 필드 처리
결측값이 있는 필드 처리(SPSS Modeler)
마지막 업데이트 날짜: 2024년 10월 07일
결측값의 대부분이 소수의 필드에 집중되어 있는 경우, 레코드 레벨이 아닌 필드 레벨에서 해결할 수 있습니다. 이 방법을 사용하면 결측값 처리를 위한 방법을 결정하기 전에 특정 필드의 상대적 중요성을 실험할 수 있습니다. 필드가 모델링에서 중요하지 않은 경우에는 결측값이 얼마나 많은지와는 관계없이 유지할 가치가 없을 수 있습니다.
예를 들어, 시장 조사 회사는 50개의 질문을 포함하는 일반 질문지에서 데이터를 수집할 수 있습니다. 질문 중 두 개는 연령과 정치적 신념 등 대다수의 사람이 응답을 꺼려하는 정보를 다룹니다. 이 경우, Age
및 Political_persuasion
에는 결측값이 많습니다.
필드 측정 수준
사용할 방법을 결정할 때 결측값이 있는 필드의 측정 수준 또한 고려해야 합니다.
숫자 필드. 숫자 필드 유형 (예: Continuous
) 의 경우 숫자 필드에 공백이 포함되면 많은 모델이 작동하지 않으므로 모델을 작성하기 전에 항상 숫자가 아닌 값을 제거해야 합니다.
범주형 필드. 범주형 필드 (예: Nominal
및 Flag
) 의 경우 결측값을 변경할 필요는 없지만 모델의 정확도가 높아집니다. 예를 들어, Sex
필드를 사용하는 모델은 Y
및 Z
와 같은 의미 없는 값으로 계속 작동하지만 M
및 F
이외의 모든 값을 제거하면 모델의 정확도가 증가합니다.
필드 선별 또는 제거
결측값이 너무 많은 필드를 선별하는 데에는 몇몇 옵션이 있습니다.