영어 버전 문서로 돌아가기분류 또는 회귀 실험 구성
분류 또는 회귀 실험 구성
마지막 업데이트 날짜: 2024년 10월 04일
AutoAI 는 분류 또는 회귀 실험을 구성하고 사용자 정의하는 데 사용할 수 있는 실험 설정을 제공합니다.
실험 설정 개요
실험 데이터를 업로드하고 실험 유형 및 예측할 항목을 선택한 후 AutoAI 는 실험에 대한 기본 구성 및 메트릭을 설정합니다. 이러한 기본값을 승인하고 실험을 진행하거나 실험 설정 을 클릭하여 구성을 사용자 정의할 수 있습니다. 구성을 사용자 정의하여 실험이 후보 모델 파이프라인을 빌드하는 방법을 정확하게 제어할 수 있습니다.
분류 및 회귀 실험에 대한 설정을 실험하기 위한 지침으로 다음 표를 사용하십시오. 시계열 실험 구성에 대한 세부사항은 시계열 실험 빌드를 참조하십시오.
예측 설정
대부분의 예측 설정은 기본 일반 페이지에 있습니다. 다음 설정을 검토하거나 업데이트하십시오.
설정 | 설명 |
---|---|
예측 유형 | 예측 유형을 변경하거나 대체할 수 있습니다. 예를 들어, AutoAI 가 두 개의 데이터 클래스만 발견하고 2진분류 실험을 구성하지만 세 개의 데이터 클래스가 있음을 알고 있는 경우 유형을 multiclass로 변경할 수 있습니다. |
긍정 클래스 | Precision, Average Precision, Recall또는 F1에 최적화된 2진분류 실험의 경우 양수 클래스가 필요합니다. 긍정적 클래스가 올바른지 확인하십시오. 그렇지 않으면 실험에서 정확하지 않은 결과를 생성할 수 있습니다. |
최적화된 메트릭 | 모델 후보 파이프라인을 최적화하고 순위를 지정하기 위한 메트릭을 변경하십시오. |
최적화된 알고리즘 선택 | AutoAI 가 모델 후보 파이프라인을 생성하는 데 사용할 알고리즘을 선택하는 방법을 선택하십시오. 가장 높은 점수를 갖는 알고리즘에 대해 최적화하거나 가장 짧은 런타임에서 가장 높은 점수를 갖는 알고리즘에 대해 최적화할 수 있습니다. |
포함할 알고리즘 | 실험이 실행될 때 평가할 사용 가능한 알고리즘을 선택하십시오. 알고리즘 목록은 선택한 예측 유형을 기반으로 합니다. |
사용할 알고리즘 | AutoAI 는 지정된 알고리즘을 테스트하고 최상의 수행자를 사용하여 모델 파이프라인을 작성합니다. 적용할 최상의 알고리즘 수를 선택하십시오. 각 알고리즘은 4-5개의 파이프라인을 생성합니다. 즉, 사용할 3개의 알고리즘을 선택하면 실험 결과에 12-15개의 순위가 지정된 파이프라인이 포함됩니다. 알고리즘이 많을수록 실험의 런타임이 늘어납니다. |
데이터 공정성 설정
예측 결과의 공정성에 대해 실험을 평가하려면 공정성 탭을 클릭하십시오. 공정성 발견 구성에 대한 세부사항은 AutoAI 실험에 공정성 테스트 적용을 참조하십시오.
데이터 소스 설정
데이터 소스 설정의 일반 탭은 실험이 훈련 및 실험 평가를 위해 데이터를 이용하고 처리하는 방법을 구성하기 위한 옵션을 제공합니다.
설정 | 설명 |
---|---|
정렬된 데이터 | 훈련 데이터가 행 인덱스에 따라 순차적으로 정렬되는지 여부를 지정하십시오. 입력 데이터가 순차적인 경우 모델 성능은 무작위 샘플링 대신 최신 레코드에서 평가되고 검증용 데이터는 n 개의 무작위 레코드가 아닌 세트의 마지막 n 개의 레코드를 사용합니다. 시계열 실험에는 순차 데이터가 필요하지만 분류 및 회귀 실험에는 선택적입니다. |
중복 행 | 훈련을 가속화하기 위해 훈련 데이터에서 중복 행을 건너뛰도록 선택할 수 있습니다. |
파이프라인 선택 서브샘플링 방법 | 대형 데이터 세트의 경우 데이터의 하위 세트를 사용하여 실험을 교육하십시오. 이 옵션은 결과의 속도를 높이지만 정확성에 영향을 줄 수 있습니다. |
기능 세분화 | 모델에 영향을 주지 않고 기능을 처리하는 방법을 지정하십시오. 선택사항은 항상 기능을 제거하거나, 모델 품질을 향상시킬 때 기능을 제거하거나, 기능을 제거하지 않는 것입니다. 기능 중요도를 계산하는 방법에 대한 세부사항은 AutoAI 구현 세부사항을 참조하십시오. |
데이터 대치 | 데이터 소스에서 누락된 값을 채웁니다. 데이터 대체 관리에 대한 세부사항은 AutoAI 실험의 데이터 대체를 참조하십시오. |
텍스트 기능 엔지니어링 | 사용으로 설정하면 텍스트로 발견되는 열이 벡터로 변환되어 문자열 간 시맨틱 유사성을 더 잘 분석합니다. 이 설정을 사용하면 런타임이 증가할 수 있습니다. 세부사항은 텍스트 분석 실험 작성을 참조하십시오. |
최종 교육 데이터 세트 | 최종 파이프라인 훈련에 사용할 데이터를 선택하십시오. 훈련 데이터만 포함하도록 선택하는 경우 생성된 노트북에는 각 파이프라인을 평가하는 데 사용되는 홀드아웃 데이터를 검색하기 위한 셀이 포함됩니다. |
이상치 처리 | 훈련 정확도를 향상시키기 위해 AutoAI 가 대상 열에서 이상치 값을 제외하는지 여부를 선택합니다. 사용으로 설정된 경우 AutoAI 는 사분위수 범위 (IQR) 방법을 사용하여 이상치를 발견하고 최종 훈련 데이터에서 제외합니다 (훈련 데이터 전용 또는 훈련+검증용 데이터). |
교육 및 검증용 방법 | 훈련 데이터는 모델을 훈련시키는 데 사용되고, 홀드아웃 데이터는 모델 훈련에서 제외되고 모델의 성능을 측정하는 데 사용됩니다. 단일 데이터 소스를 훈련 및 테스트(홀드아웃) 데이터로 분할하거나 테스트 데이터에 대해 특별히 두 번째 데이터 파일을 사용할 수 있습니다. 훈련 데이터를 분할하는 경우 훈련 데이터 및 검증용 데이터에 사용할 백분율을 지정하십시오. 기본값인 세 개의 중첩에서 최대 10개의 중첩까지 중첩 수를 지정할 수도 있습니다. 교차 검증은 모델 성능을 테스트하기 위해 교육 데이터를 접기 또는 그룹으로 나누어집니다. |
포함할 기능 선택 | 예측 열을 지원하는 데이터를 포함하는 데이터 소스에서 열을 선택하십시오. 외부 열을 제외하면 런타임이 향상될 수 있습니다. |
런타임 설정
실험 설정을 검토하거나 실험 실행을 위해 할당된 계산 자원을 변경하십시오.
다음 단계
상위 주제: AutoAI 모델 빌드