데이터 마이닝의 데이터 준비 단계 동안 종종 데이터의 결측값을 대체하려고 할 수 있습니다.
결측값은 알려지지 않고, 수집되지 않거나 잘못 입력된 데이터 세트의 값입니다. 일반적으로 이러한 값은 해당 필드에 유효하지 않습니다. 예를 들어, Sex
필드는 M
및 F
값을 포함해야 합니다. 필드에 Y
또는 Z
값이 있다면 이를 유효하지 않은 값으로 가정하여 공백으로 해석해야 합니다. 마찬가지로 Age
필드의 음수 값은 의미가 없으며 공백으로 해석되어야 합니다. 비반응을 표시하기 위해 질문지 동안 이러한 명백하게 잘못된 값이 의도적으로 입력되거나 필드가 공백으로 남아 있는 경우가 자주 있습니다. 때로는 이러한 공백을 자세히 조사하여 누군가가 나이 제공을 거부하는 등 무응답한 것이 특정 결과를 예측하는 데 있어서 요인인지 여부를 판별하려고 할 수 있습니다.
몇몇 모델링 기술은 다른 기술보다 결측 데이터를 보다 잘 처리합니다. 예를 들어, C5.0 노드 및 Apriori 노드 는 유형 노드에서 명시적으로 "결측" 으로 선언된 값에 잘 대처합니다. 다른 모델링 기법은 결측값을 다루는 데 문제가 있고 학습 시간이 길고 정확성이 떨어지는 모델을 생성합니다.
- 널 또는 시스템 결측값. 이 값은 데이터베이스 또는 소스 파일에서 공백으로 남아 있고 가져오기 또는 유형 노드에서 "누락" 으로 특별히 정의되지 않은 문자열이 아닌 값입니다. 시스템 결측값은
$null$
로 표시됩니다. 비어 있는 문자열은 특정 데이터베이스에서 널 (null) 로 처리될 수 있지만 널 (null) 로 간주되지 않습니다. - 빈 문자열 및 공백. 빈 문자열 값과 공백(눈에 보이는 문자가 없는 문자열)은 널값과는 별개로 처리됩니다. 빈 문자열은 대부분의 경우에서 공백과 동일하게 처리됩니다. 예를 들어, 가져오기 또는 유형 노드에서 공백을 공란으로 처리하는 옵션을 선택한 경우, 이 설정은 빈 문자열에도 적용됩니다.
- 공백 또는 사용자 정의 결측값. 이러한 값은 가져오기 노드 또는 유형 노드에서 결측으로 명백하게 정의되어 있는
unknown
,99
또는–1
등과 같은 값입니다. 또는 널과 공백을 공란으로 처리하기로 선택할 수도 있는데 그러면 이들은 특수 처리용으로 플래그가 지정되고 대부분의 계산에서 제외됩니다. 예를 들어,@BLANK
함수를 사용하여 이들 값 및 다른 유형의 결측값을 공란으로 처리할 수 있습니다.
혼합 데이터에서 읽기. 숫자 저장 공간 (정수, 실수, 시간, 시간소인 또는 날짜) 이 있는 필드에서 읽을 때 숫자가 아닌 값은 null
또는 system missing
로 설정됩니다. 이는 일부 애플리케이션과 달리 필드 내에서 혼합 저장 유형을 허용하지 않기 때문입니다. 이러한 상황을 방지하려면 필요에 따라 가져오기 노드나 외부 애플리케이션에서 저장 유형을 변경하여 혼합 데이터가 있는 필드를 문자열로 읽어야 합니다.
Oracle에서 빈 문자열 읽기. Oracle 데이터베이스에서 읽거나 쓸 때 대부분의 다른 데이터베이스와 달리 Oracle 은 빈 문자열 값을 널값과 동등하게 처리하고 저장합니다. 이는 Oracle 데이터베이스에서 추출된 동일한 데이터가 파일 또는 다른 데이터베이스에서 추출된 경우와 다르게 동작하고 데이터가 다른 결과를 리턴할 수 있음을 의미합니다.