0 / 0
영어 버전 문서로 돌아가기
AutoAI 실험에서 데이터 대체
마지막 업데이트 날짜: 2024년 10월 04일
AutoAI 실험에서 데이터 대체

데이터 대체는 데이터 세트의 결측값을 대체 값으로 대체하는 수단입니다. 대체를 사용하는 경우 데이터에서 결측값을 보간하는 방법을 지정할 수 있습니다.

실험 유형에 의한 대체

대체 방법은 빌드하는 실험의 유형에 따라 다릅니다.

  • 분류 및 회귀의 경우 카테고리 및 숫자 대체 방법을 구성할 수 있습니다.
  • 시계열 문제의 경우 숫자 열에 적용할 대체 방법 세트에서 선택할 수 있습니다. 실험이 실행되면 세트에서 최상의 수행 방법이 자동으로 적용됩니다. 대체 값으로 특정 값을 지정할 수도 있습니다.

대체 활성화

대체 옵션을 보고 설정하려면 다음을 수행하십시오.

  1. 실험을 구성할 때 실험 설정을 클릭하십시오.
  2. 데이터 소스 옵션을 클릭하십시오.
  3. 데이터 실행 가능을 클릭하십시오. 데이터 대체를 명시적으로 사용하지 않지만 데이터 소스에 결측값이 있는 경우, AutoAI는 사용자에게 경고하고 기본 귀속 방법을 적용합니다. 대체 세부사항을 참조하십시오.
  4. Imputation 섹션에서 옵션을 선택합니다.
  5. 선택적으로 데이터 열에 허용 가능한 대체 백분율에 대한 임계값을 설정합니다. 누락된 값의 백분율이 지정된 임계값을 초과하면 실험이 실패합니다. 분석하려면 데이터 소스를 업데이트하거나 임계값을 조정하십시오.

분류 및 회귀 실험을 위한 대체 구성

2진 분류, 다중 클래스 분류 또는 회귀 실험에서 누락된 데이터를 대체하려면 다음 메소드 중 하나를 선택하십시오. 텍스트 기반 (범주형) 데이터의 값을 완성하는 한 가지 방법과 숫자 데이터의 값을 완성하는 다른 방법을 사용할 수 있습니다.

방법 설명
최다 사용 빈도 누락된 값을 열에 가장 자주 표시되는 값으로 대체하십시오.
중간 결측값을 정렬된 열의 중간에 있는 값으로 바꾸십시오.
평균 결측값을 열의 평균 값으로 바꾸십시오.

시계열 실험을 위한 대체 구성

이 메소드 중 일부 또는 모두를 선택하십시오. 여러 방법을 선택하면 최상의 수행 방법이 실험에 자동으로 적용됩니다.

참고: 날짜 또는 시간 값에 대해서는 대치가 지원되지 않습니다.
방법 설명
3차(U) 누락된 값을 채우기 위해 pandas/scipy 방법을 사용하여 3차 보간을 사용합니다.
채우기 결측값을 사용자가 지정하는 숫자 값으로 대체하려면 유형으로 을 선택하십시오.
평탄화 반복 데이터를 먼저 평탄하게 하고, 그 다음 Scikit-learn 반복 대체자를 적용하여 결측값을 찾습니다.
선형 누락된 값을 채우려면 pandas/scipy 방법을 사용하여 선형 보간법을 사용하십시오.
다음 결측값을 다음 값으로 바꿉니다.
이전 결측값을 이전 값으로 바꿉니다.

다음 단계

시계열 실험에 대한 데이터 대체 구현 세부사항

상위 주제: AutoAI 개요

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기