데이터 마이닝 문제점은 잠재적으로 입력으로 사용할 수 있는 수백 또는 심지어 수천 개의 필드입니다. 결과적으로 모델에 포함시킬 필드나 변수를 검토하는 데 상당한 시간과 노력이 소모될 수 있습니다. 이 선택의 범위를 좁히려면 필드선택 알고리즘을 사용하여 주어진 분석에 가장 중요한 필드를 식별할 수 있습니다. 예를 들어, 요인 수를 기준으로 하여 환자 결과를 예측하려 시도하는 경우 어느 요인이 가장 중요합니까?
필드선택은 다음 세 가지 단계로 이루어집니다.
- 선별. 중요하지 않고 문제가 되는 입력 및 레코드나 결측값이 너무 많거나 유용한 변화가 너무 많거나 적은 입력 필드와 같은 케이스를 제거합니다.
- 순위. 중요도를 기준으로 하여 나머지 입력을 정렬하고 순위를 지정합니다.
- 선택. 예를 들어 가장 중요한 입력만 보존하고 다른 모든 입력은 필터링 또는 제외해서 후속 모델에 사용할 변수의 서브세트를 식별합니다.
많은 조직이 너무 많은 데이터로 과부하된 경우에는 모델링 프로세스를 단순화하고 가속화할 때 필드선택이 실질적으로 유용할 수 있습니다. 가장 중요한 필드에 빠르게 집중함으로써 필요한 계산량을 줄일 수 있습니다. 간과할 수 있는 작지만 중요한 관계를 보다 간편하게 찾고 궁극적으로는 더 단순 및 정확하고 쉽게 설명할 수 있는 모델을 확보합니다. 모델에 사용하는 필드 수를 줄임으로써 미래 반복에서 수집되는 데이터의 양과 스코어링 시간을 줄이는 것이 가능함을 알 수 있습니다.
예. 통신회사에 회사 고객 5,000명이 특별 프로모션에 보인 반응에 대한 정보를 포함하는 데이터 웨어하우스가 있습니다. 이때 데이터에는 고객의 나이, 고용, 수입, 통신 사용 통계량을 포함하는 여러 필드가 있습니다. 세 개의 대상 필드는 세 가지 각 제안에 고객이 반응하는지 여부를 보여줍니다. 회사는 이 데이터를 사용하여 고객이 향후에 유사한 제안에 반응할 가능성을 예측할 수 있습니다.
요구사항. 단일 대상 필드 (역할이 Target
로 설정된 필드) 와 대상과 관련하여 선별하거나 순위를 지정할 다중 입력 필드. 대상 및 입력 필드 둘 다 Continuous
(숫자 범위) 또는 Categorical
의 측정 수준을 가질 수 있습니다.