영어 버전 문서로 돌아가기AutoAI 실험에서 데이터 대체
AutoAI 실험에서 데이터 대체
마지막 업데이트 날짜: 2024년 10월 04일
데이터 대체는 데이터 세트의 결측값을 대체 값으로 대체하는 수단입니다. 대체를 사용하는 경우 데이터에서 결측값을 보간하는 방법을 지정할 수 있습니다.
실험 유형에 의한 대체
대체 방법은 빌드하는 실험의 유형에 따라 다릅니다.
- 분류 및 회귀의 경우 카테고리 및 숫자 대체 방법을 구성할 수 있습니다.
- 시계열 문제의 경우 숫자 열에 적용할 대체 방법 세트에서 선택할 수 있습니다. 실험이 실행되면 세트에서 최상의 수행 방법이 자동으로 적용됩니다. 대체 값으로 특정 값을 지정할 수도 있습니다.
대체 활성화
대체 옵션을 보고 설정하려면 다음을 수행하십시오.
- 실험을 구성할 때 실험 설정을 클릭하십시오.
- 데이터 소스 옵션을 클릭하십시오.
- 데이터 실행 가능을 클릭하십시오. 데이터 대체를 명시적으로 사용하지 않지만 데이터 소스에 결측값이 있는 경우, AutoAI는 사용자에게 경고하고 기본 귀속 방법을 적용합니다. 대체 세부사항을 참조하십시오.
- Imputation 섹션에서 옵션을 선택합니다.
- 선택적으로 데이터 열에 허용 가능한 대체 백분율에 대한 임계값을 설정합니다. 누락된 값의 백분율이 지정된 임계값을 초과하면 실험이 실패합니다. 분석하려면 데이터 소스를 업데이트하거나 임계값을 조정하십시오.
분류 및 회귀 실험을 위한 대체 구성
2진 분류, 다중 클래스 분류 또는 회귀 실험에서 누락된 데이터를 대체하려면 다음 메소드 중 하나를 선택하십시오. 텍스트 기반 (범주형) 데이터의 값을 완성하는 한 가지 방법과 숫자 데이터의 값을 완성하는 다른 방법을 사용할 수 있습니다.
방법 | 설명 |
---|---|
최다 사용 빈도 | 누락된 값을 열에 가장 자주 표시되는 값으로 대체하십시오. |
중간 | 결측값을 정렬된 열의 중간에 있는 값으로 바꾸십시오. |
평균 | 결측값을 열의 평균 값으로 바꾸십시오. |
시계열 실험을 위한 대체 구성
이 메소드 중 일부 또는 모두를 선택하십시오. 여러 방법을 선택하면 최상의 수행 방법이 실험에 자동으로 적용됩니다.
참고: 날짜 또는 시간 값에 대해서는 대치가 지원되지 않습니다.
방법 | 설명 |
---|---|
3차(U) | 누락된 값을 채우기 위해 pandas/scipy 방법을 사용하여 3차 보간을 사용합니다. |
채우기 | 결측값을 사용자가 지정하는 숫자 값으로 대체하려면 유형으로 값을 선택하십시오. |
평탄화 반복 | 데이터를 먼저 평탄하게 하고, 그 다음 Scikit-learn 반복 대체자를 적용하여 결측값을 찾습니다. |
선형 | 누락된 값을 채우려면 pandas/scipy 방법을 사용하여 선형 보간법을 사용하십시오. |
다음 | 결측값을 다음 값으로 바꿉니다. |
이전 | 결측값을 이전 값으로 바꿉니다. |
다음 단계
상위 주제: AutoAI 개요