AutoAI 는 자동으로 데이터를 준비하고 알고리즘 또는 추정기를 적용하며 데이터 및 유스 케이스에 가장 적합한 모델 파이프라인을 빌드합니다.
다음 절에서는 파이프라인을 생성하는 데 사용되는 이러한 기술 세부사항 중 일부를 설명하고 AutoAI 가 디자인되고 구현된 방법을 설명하는 연구 논문 목록을 제공합니다.
- 훈련을 위한 데이터 준비(사전 처리)
- 자동화된 모델 선택
- 분류 모델에 사용되는 알고리즘
- 회귀 모델에 사용되는 알고리즘
- 모델 유형별 메트릭
- 데이터 변환
- 자동화된 기능 엔지니어링
- 하이퍼매개변수 최적화
- AutoAI FAQ
- 자세히 알아보기
훈련을 위한 데이터 준비(데이터 사전 처리)
자동 데이터 준비 또는 사전 처리 중에 AutoAI는 훈련 데이터를 분석하고 모델 선택 및 파이프라인 생성을 위해 준비합니다. 대부분의 데이터 세트에는 결측값이 포함되어 있지만 기계 학습 알고리즘은 일반적으로 결측값을 예상하지 않습니다. 이 규칙의 예외는 xgboost 섹션 3.4 에 설명되어 있습니다. AutoAI 알고리즘은 다양한 기술을 사용하여 데이터 세트에서 다양한 결측값 대체를 수행하여 데이터를 기계 학습에 사용할 수 있도록 준비합니다. 또한 AutoAI는 카테고리형 또는 숫자와 같은 데이터 유형을 기반으로 기능을 감지하고 분류합니다. 기능 분류를 기반으로 하는 인코딩 및 스케일링 전략을 탐색합니다.
데이터 준비에는 다음 단계가 수행됩니다.
기능 열 분류
- 기능 열 유형을 발견하고 이를 카테고리형 또는 숫자형 클래스로 분류합니다.
- 결측값의 다양한 유형을 발견합니다(기본값, 사용자 정의, 아웃라이어).
기능 엔지니어링
- 대상 값이 누락된 행(삭제(기본값) 또는 대상 귀속) 처리
- 고유 값 열(datetime 및 timestamps 제외) 삭제
- 상수 값 열 삭제
사전 처리(데이터 귀속 및 인코딩)
- Sklearn 귀속/인코딩/스케일링 전략 적용(각 기능 클래스별로 별도 적용). 예를 들어, 제품에서 사용되는 결측값 대체 전략에 대한 현재 기본 방법은 범주형 변수의 경우
most frequent
이고 숫자 변수의 경우mean
입니다. - 훈련 세트에 표시되지 않은 테스트 세트 레이블 처리
- HPO 기능: 데이터 세트 및 알고리즘이 제공된 경우 대체/인코딩/스케일링 전략 최적화
자동 모델 선택
AutoAI 실험 훈련의 두 번째 스테이지는 자동화된 모델 선택입니다. 자동화된 모델 선택 알고리즘은 상한 전략을 사용하여 데이터 할당을 사용합니다. 이 접근법은 큰 알고리즘 세트 중에서 훈련 데이터의 작은 서브세트를 순차적으로 할당합니다. 목표는 잘못 할당된 샘플의 비용을 최소화하면서 모든 데이터에 대해 훈련될 때 최적에 가까운 정확도를 제공하는 알고리즘을 선택하는 것입니다. 이 시스템은 현재 모든 Scikit-learn 알고리즘과 대중적인 XGBoost및 LightGBM 알고리즘을 지원합니다. 대형 데이터 세트에 대한 모델의 훈련 및 평가는 비용이 많이 듭니다. 작은 서브세트를 시작하고 데이터 세트에서 잘 작동하는 모델에 증분식으로 큰 서브세트를 할당하는 접근 방식은 성능을 저하시키지 않고 시간을 절약합니다.Snap 머신 러닝 알고리즘을 시스템에 추가하여 성능을 더욱 향상시켰습니다.
모델의 알고리즘 선택
알고리즘은 모델의 특성과 데이터를 일치시키기 위해 선택되지만, 모델이 해당 옵션으로 구성된 경우 런타임 기간과 정확도의 균형을 맞출 수도 있습니다. 예를 들면, Snap ML 알고리즘은 기본적으로 Scikit-학습 알고리즘 훈련보다 빠릅니다. 훈련이 더 짧은 런타임 및 정확성을 위해 최적화되는 경우 종종 AutoAI 가 자동으로 선택하는 선호 알고리즘입니다. 훈련 속도가 우선순위인 경우 수동으로 선택할 수 있습니다. 세부사항은 Snap ML 문서를 참조하십시오. SnapML 알고리즘이 유용한 경우에 대한 논의는 SnapML 알고리즘 사용에 관한 이 블로그 게시물을 참조하세요.
분류 모델에 사용되는 알고리즘
이러한 알고리즘은 분류 문제점에 대한 모델 선택에 사용되는 기본 알고리즘입니다.
알고리즘 | 설명 |
---|---|
의사결정 트리 분류자 | 항목(분기로 표시됨)에 대한 관찰을 맵핑하여 항목의 대상 값(리프로 표시됨)에 대한 결론을 내립니다. 이분형 및 다중 클래스 레이블과 연속형 및 범주형 기능을 모두 지원합니다. |
추가 트리 분류자 | 무작위 의사결정 트리를 기반으로 하는 평균 알고리즘입니다. |
기울기 부스팅된 트리 분류기 | 의사결정 트리의 앙상블 양식으로 분류 예측 모델을 생성합니다. 이분형 레이블과 연속형 및 범주형 기능을 모두 지원합니다. |
LGBM 분류자 | 리프 중심(수평) 트리 기반 학습 알고리즘을 사용하는 그래디언트 부스팅 프레임워크입니다. |
로지스틱 회귀 | 두 결과 중 하나를 판별하는 하나 이상의 독립 변수가 있는 데이터 세트를 분석합니다. 2진 로지스틱 회귀만 지원됩니다. |
랜덤 포리스트 분류자 | 각 의사결정 트리의 모드인 레이블을 생성하기 위해 다중 의사결정 트리를 구성합니다. 이분형 및 다중 클래스 레이블과 연속형 및 범주형 기능을 모두 지원합니다. |
SnapDecisionTreeClassifier | 이 알고리즘은 IBM Snap ML 라이브러리를 사용하여 의사결정 트리 분류자를 제공합니다. |
SnapLogisticRegression | 이 알고리즘은 IBM Snap ML 해결 프로그램을 사용하여 정규화된 로지스틱 회귀분석을 제공합니다. |
SnapRandomForestClassifier | 이 알고리즘은 IBM Snap ML 라이브러리를 사용하여 랜덤 포리스트 분류자를 제공합니다. |
SnapSVMClassifier | 이 알고리즘은 IBM Snap ML Solver를 사용하여 정규화된 지원 벡터 머신을 제공합니다. |
XGBoost 분류 | 분류 문제점에 사용할 수 있는 정확한 프로시저입니다. XGBoost 모델은 웹 검색 순위 및 생태학을 포함한 다양한 영역에서 사용됩니다. |
SnapBoostingMachineClassifier | 2진 의사결정 트리와 선형 모델을 혼합하는 2진 및 다중 클래스 분류 태스크를 위한 부스팅 머신과 랜덤 푸리어 기능을 포함합니다. |
회귀 모델에 사용되는 알고리즘
이러한 알고리즘은 회귀 문제점에 대한 자동 모델 선택에 사용되는 기본 알고리즘입니다.
알고리즘 | 설명 |
---|---|
의사결정 트리 회귀 | (리프에 표시된) 항목의 목표값에 대한 결론으로 (분기에 표시된) 항목의 관측치를 맵핑합니다. 이는 연속 및 카테고리 기능 모두를 지원합니다. |
엑스트라 트리 회귀 | 무작위 의사결정 트리를 기반으로 하는 평균 알고리즘입니다. |
기울기 부스팅 회귀 | 의사결정 트리의 앙상블 양식으로 회귀 예측 모델을 생성합니다. 이는 연속 및 카테고리 기능 모두를 지원합니다. |
LGBM 회귀 | 트리 기반 학습 알고리즘을 사용하는 그래디언트 부스팅 프레임워크입니다. |
선형 회귀 | 스칼라 종속 변수 y와 하나 이상의 설명 변수(또는 독립 변수) x 간의 선형 관계를 모델링합니다. |
랜덤 포리스트 회귀 | 각 의사결정 트리의 평균 예측을 생성하기 위해 다중 의사결정 트리를 구성합니다. 이는 연속 및 카테고리 기능 모두를 지원합니다. |
리지 | 능형 회귀는 최소제곱과 유사하지만 계수 크기에 대해 페널티를 부과합니다. |
SnapBoostingMachineRegressor | 이 알고리즘은 의사결정 트리의 앙상블을 구성하는 데 사용할 수 있는 IBM Snap ML 라이브러리를 사용하여 부스팅 머신을 제공합니다. |
SnapDecisionTreeRegressor | 이 알고리즘은 IBM Snap ML 라이브러리를 사용하여 의사결정 트리를 제공합니다. |
SnapRandomForestRegressor | 이 알고리즘은 IBM Snap ML 라이브러리를 사용하여 랜덤 포리스트를 제공합니다. |
XGBoost 회귀 | GBRT는 회귀 문제에 사용될 수 있는 정확하고 효과적이며 누구나 사용 가능한 프로시저입니다. 기울기 트리 부스팅 모델은 웹 검색 순위 및 생태학을 포함하여 다양한 영역에서 사용됩니다. |
모델 유형별 메트릭
훈련 중 파이프라인의 정확성을 측정하고 데이터를 스코어링하기 위해 다음 메트릭을 사용할 수 있습니다.
2진 분류 메트릭
- 정확도(파이프라인의 순위 지정을 위한 기본값)
- Roc auc
- 평균 정밀도
- F
- 음의 로그 손실
- 정밀도
- 다시 호출
다중 클래스 분류 메트릭
다중 클래스 모델의 메트릭은 파이프라인이 지정된 측정에 대해 얼마나 잘 수행하는지에 대한 점수를 생성합니다. 예를 들어, F1 스코어는 정밀도 (작성된 예측 중, 올바른 양의 예측 수) 및 재호출 (가능한 모든 양의 예측 중, 올바르게 예측된 수) 을 평균합니다.
지정된 메트릭을 글로벌로 계산하거나 (매크로) 레이블별로 계산하거나 (마이크로) 클래스에 더 많은 표시가 있는 클래스를 선호하도록 불균형 데이터 세트에 가중치를 부여하도록 규정하여 점수를 추가로 세분화할 수 있습니다.
- micro 규정자가 있는 메트릭은 참 긍정, 거짓 부정 (false negative) 및 거짓 긍정 (false positive) 의 총 수를 계수하여 글로벌로 메트릭을 계산합니다.
- macro 규정자가 있는 메트릭은 각 레이블에 대한 메트릭을 계산하고 가중되지 않은 평균을 찾습니다. 모든 레이블은 동등하게 가중됩니다.
- weighted 규정자가 있는 메트릭은 각 레이블의 메트릭을 계산하고 각 클래스의 기여도에 의해 가중치가 부여된 평균을 찾습니다. 예를 들어, 사과, 복숭아 및 자두에 대한 카테고리를 포함하는 데이터 세트에서 더 많은 사과 인스턴스가 있는 경우 가중 메트릭은 사과를 올바르게 예측하는 데 더 큰 중요성을 제공합니다. 이는 레이블 불균형을 설명하기 위해 macro 를 변경합니다. 불균형 데이터 세트에 대해 F1-weighted 와 같은 가중치가 있는 메트릭을 사용하십시오.
다음은 다중 클래스 분류 메트릭입니다.
- 정확도(파이프라인의 순위 지정을 위한 기본값)
- F1
- F1 마이크로
- F1 매크로
- F1 가중
- 정밀도
- 정밀도 마이크로
- 정밀도 매크로
- 정밀도 가중
- 다시 호출
- 재현율 마이크로
- 재현율 매크로
- 재현율 가중
회귀 메트릭
- 음의 평균 제곱근 오차(파이프라인의 순위 지정을 위한 기본값)
- 음의 평균 절대 오차
- 음의 평균 제곱근 로그 오류
- 설명된 분산
- 음의 평균 제곱 오차
- 음의 평균 제곱 로그 오차
- 음의 중간 절대 오차
- R2
자동화된 기능 엔지니어링
AutoAI 프로세스의 세 번째 스테이지는 자동화 기능 엔지니어링입니다. 자동화된 피처 엔지니어링 알고리즘은 Cognito를 기반으로 하며, 이는 연구 논문인 Cognito: 강화 학습을 사용한 지도 학습을 위한 자동화된 피처 엔지니어링 및 예측 모델링을 위한 피처 엔지니어링 에 설명되어 있습니다. 시스템은 계층 구조적이고 완전하지 않은 방식으로 다양한 기능 구성 선택사항을 탐색하는 동시에 탐색 개발 전략을 통해 모델의 정확도를 점진적으로 최대화합니다. 이 방법은 기능 엔지니어링을 위한 "시행착오" 전략에서 영감을 얻었지만, 인간 대신에 자율적인 에이전트에 의해 수행됩니다.
기능 중요도에 사용되는 메트릭
의사결정 트리, 추가 트리, 랜덤 포리스트, XGBoost, 그라디언트 부스팅 및 LGBM과 같은 트리 기반 분류 및 회귀 알고리즘의 경우, 기능 중요도는 분할 지점을 선택하는 데 사용되는 기준의 감소를 기반으로 하는 고유한 기능 중요도 점수이며 이러한 알고리즘이 훈련 데이터에서 훈련될 때 계산됩니다.
로지스틱 회귀, LInear 회귀, SnapSVM,, Ridge와 같은 비트리 알고리즘의 경우 기능 중요도는 비트리 알고리즘과 동일한 학습 데이터로 학습된 랜덤 포레스트 알고리즘의 기능 중요도입니다.
임의의 알고리즘에 있어서, 모든 기능 가져오기는 0과 1사이의 범위 내에 있고 최대 기능 중요도에 대한 비율로서 정규화되었습니다.
데이터 변환
기능 엔지니어링의 경우 AutoAI 는 보강 학습을 사용하여 점진적으로 모델 정확도를 최대화하면서 구조화되고 완전하지 않은 방식으로 다양한 기능 구성 선택사항을 탐색하는 새로운 접근법을 사용합니다. 이로 인해 모델 선택 단계의 알고리즘 또는 알고리즘과 가장 잘 일치하는 데이터에 대해 최적화된 변환 시퀀스가 생성됩니다. 이 표에는 사용되는 일부 변환과 이 변환이 유용한 잘 알려진 일부 조건이 나열되어 있습니다. 이는 복합적이고 해석하기 어려울 수 있으므로 변환이 유용한 포과적인 시나리오 목록이 아닙니다. 마지막으로 나열된 시나리오에서는 변환이 선택되는 방법을 설명하지 않습니다. 적용할 변환 선택은 시도 및 착오, 성능 지향적인 방식으로 수행됩니다.
이름 | 코드 | 함수 |
---|---|---|
기본 구성요소 분석 | pca | 데이터 차원을 줄이고 더 적합한 좌표계에서 다시 조정합니다. 선형으로 상관된 데이터에서 '차원의 저주'를 해결하는 데 도움이 됩니다. 이는 중복성을 제거하고 데이터에서 중요한 신호를 분리합니다. |
표준 스케일러 | stdscaler | 데이터 기능을 표준 범위로 확장합니다. 이는 특정 학습 알고리즘 및 기타 변환 (예: PCA) 의 효능 및 효율성을 돕습니다. |
로그 | 로그 | 기능에서 우향 왜도를 줄이고 좀 더 대칭이 되도록 합니다. 결과적으로 기능에서 대칭이 되면 알고리즘이 데이터를 더 잘 이해하는 데 도움이 됩니다. 평균 및 분산을 기반으로 하여 균등한 스케일링은 대칭적인 데이터에서 더 많은 의미가 있습니다. 또한 대수를 통해 가장 잘 설명된 기능과 대상 간의 특정 물리적 관계를 캡처할 수 있습니다. |
세제곱근 | cbrt | 로그와 같이 데이터에서 우향 왜도를 줄이지만 로그보다 영향이 적으며 일부의 경우에는 더 적합합니다.또한 로그가 적용되지 않는 음수 또는 0값에 적용할 수 있습니다.세제곱근은 볼륨을 길이로 줄이는 것과 같이 단위를 변경할 수도 있습니다. |
제곱근 | sqrt | 데이터에서 완만한 우향 왜도를 줄입니다. 이는 로그나 세제곱근보다 약합니다. 영 (0) 과 함께 작동하며 공간 차원 (예: 영역에서 길이로) 을 줄입니다. |
제곱 | 제곱 | 이러한 분포를 더 대칭적으로 만들기 위해 왼쪽 왜도를 중간 정도로 줄입니다. 또한 초선형 성장과 같은 특정 현상을 포착하는 데에도 도움이 될 수 있습니다. |
제품 | 제품 | 두 기능의 곱으로 비선형 관계를 노출하여 개별 값만으로 예측하는 것보다 목표 값을 더 잘 예측할 수 있습니다. 예를 들어, 판매되는 항목 수에 대한 항목 비용은 비즈니스 크기를 단독으로 표시하는 것보다 더 잘 표시합니다. |
숫자 XOR | nxor | 이러한 변환은 비트단위 XOR과 유사하게, 일반적인 수치 문맥에서, 변수들 사이의 "배타적 분리" 유형의 관계들을 캡처하는 것을 돕습니다. |
합계 | 합계 | 때때로 두 기능의 합은 기능을 단독으로 사용하는 것보다 예측 대상과 더 많은 관계가 있습니다. 예를 들어, 서로 다른 출처의 대출이 합산되면, 대출 신청자의 전체 부채에 대한 더 나은 아이디어를 제공합니다. |
나누기 | 나누기 | 나눗셈은 인구 대비 총 GDP (1인당 GDP) 와 같은 수량을 표현하는 데 사용되는 기본적인 피연산자로, 국가의 평균 수명이 GDP 단독 또는 인구 단독보다 우수합니다. |
최대 | 최대 | 두 값 중 높은 값을 사용합니다. |
라운드 | round | 이 변환은 부정확한 관측값의 결과일 수 있는 과적합을 줄이기 위해 변동 또는 일부 잡음을 추가하는 것으로 볼 수 있습니다. |
절대값 | abs | 관측값의 부호는 아니고 크기만 고려합니다. 때로는 관찰의 방향이나 신호가 물리적 이동과 같은 크기만큼 중요하지 않고, 실제 움직임에 소요되는 연료나 시간을 고려하는 경우도 있습니다. |
쌍곡 탄젠트 | tanh | 비선형 활성화 함수는 신경망 활성화 함수의 예측 정확도와 유사하게 예측 정확도를 향상시킬 수 있습니다. |
사인 | sin | 단순 조화 운동과 같이 주기적인 추세를 발견하기 위해 데이터의 방향을 조정할 수 있습니다. |
코사인 | cos | 단순 조화 운동과 같이 주기적인 추세를 발견하기 위해 데이터의 방향을 조정할 수 있습니다. |
탄젠트 | tan | 심각법의 탄젠트 변환은 주로 다른 변환과 결합할 때 도움이 됩니다. |
기능 응집 | 기능 집합 | 거리 또는 연관관계를 기반으로 다른 기능을 그룹으로 클러스터링하면 학습 알고리즘에 대한 분류의 용이성을 제공합니다. |
시그모이드 | sigmoid | 비선형 활성화 함수는 신경망 활성화 함수의 예측 정확도와 유사하게 예측 정확도를 향상시킬 수 있습니다. |
Isolation Forest | isoforestanomaly | Isolation Forest를 사용하여 클러스터링을 수행하고 각 샘플에 대한 이상 점수를 포함하는 새 기능을 만듭니다. |
단어 대 벡터 | word2vec | 텍스트 분석에 사용되는 이 알고리즘은 다른 모든 변환 전에 적용됩니다. 텍스트의 코퍼스를 입력으로 취하고 벡터 집합을 출력합니다. 텍스트를 숫자 표현으로 변환하여 유사한 단어를 발견하고 비교할 수 있습니다. 충분한 데이터를 훈련한 경우, word2vec 은(는) 단어의 의미 또는 다른 단어와의 관계에 대해 정확한 예측을 수행할 수 있습니다. 예측은 심리 분석 애플리케이션에서 텍스트를 분석하고 의미를 예측하는 데 사용할 수 있습니다. |
하이퍼 매개변수 최적화
AutoAI의 최종 스테이지는 하이퍼매개변수 최적화입니다. AutoAI 접근법은 이전 단계에서 최상의 성능을 수행하는 파이프라인의 매개변수를 최적화합니다. 이는 RBFOpt라는 블랙 박스 하이퍼 매개변수 최적화 프로그램을 사용하여 이러한 파이프라인의 매개변수 범위를 탐색하여 수행됩니다. RBFOpt는 비용이 많이 드는 함수 평가를 통한 블랙박스 최적화를 위한 오픈 소스 라이브러리라는 연구 논문 RBFOpt 에 설명되어 있습니다. RBFOpt는 알고리즘 훈련 및 스코어링의 경우와 같이 비용이 많이 드는 평가를 사용하여 최적화를 위해 빌드되므로 AutoAI 실험에 적합합니다. RBFOpt의 접근 방식은 각 반복의 긴 평가 시간에도 불구하고 빠르게 수렴하도록 알 수 없는 목적 함수의 대리 모델을 빌드하고 반복적으로 정제합니다.
AutoAI FAQ
다음은 AutoAI 실험 작성에 대해 공통적으로 받는 질문입니다.
얼마나 많은 파이프라인이 작성됩니까?
두 개의 AutoAI 매개변수가 파이프라인의 수를 판별합니다.
max_num_daub_ensembles: 선택된 알고리즘 또는 평가자 유형(예: LGBMClassifierEstimator, XGBoostClassifierEstimator 또는 LogisticRegressionEstimator)의 최대 수(DAUB 모델 선택에 의해 평가됨)가 파이프라인 복합에 사용됩니다. 기본값은 1이며, 모델 선택 알고리즘 유형에서 지정한 가장 높은 순위만 사용됩니다.
num_fold: 전체 데이터 세트 외에 파이프라인을 훈련시키기 위한 전체 데이터 세트의 서브세트 수. 전체 데이터 세트를 훈련하는 경우 기본값은 1입니다.
각 폴드 및 알고리즘 유형에 대해 AutoAI 는 다음에 해당하는 증가된 세분화의 네 개의 파이프라인을 작성합니다.
- 이 알고리즘 유형에 대해 기본 sklearn 매개변수를 가진 파이프라인.
- HPO를 사용하여 최적화된 알고리즘을 사용하는 파이프라인
- 최적화된 기능 엔지니어링이 있는 파이프라인.
- HPO를 사용하여 최적화된 기능 엔지니어링 및 최적화된 알고리즘을 사용하는 파이프라인
생성되는 총 파이프라인 수는 다음과 같습니다.
TotalPipelines= max_num_daub_ensembles * 4, if num_folds = 1:
TotalPipelines= (num_folds+1) * max_num_daub_ensembles * 4, if num_folds > 1 :
내 모델에는 어떤 하이퍼 매개변수 최적화가 적용됩니까?
AutoAI 하이퍼파라미터 최적화(HPO)에 필요한 고비용의 머신러닝 모델 학습 및 점수 평가에 적합한 RBfOpt, 모델 기반의 파생물이 없는 글로벌 검색 알고리즘을 사용합니다. 가우시안 모델을 알 수 없는 목적 함수에 맞추는 베이지안(Bayesian) 최적화와는 반대로 RBfOpt는 당면한 기계 학습 문제의 목적 함수를 극대화하는 하이퍼 매개변수 구성의 검색을 가속화하기 위해 방사형 기초 기능 모드에 맞춥니다. 비싼 훈련 횟수를 최소화하고 기계 학습 모델 평가를 스코어링함으로써 그리고 부분 파생물을 컴퓨팅해야 하는 필요성을 제거함으로써 가속화가 달성됩니다.
각 폴드 및 알고리즘 유형의 경우 AutoAI는 HPO를 사용하여 알고리즘 유형에 대해 최적화하는 두 개의 파이프라인을 작성합니다.
- 첫 번째는 위의 사전 처리된 (대체/인코딩/스케일된) 데이터 세트 (파이프라인 2) 를 기반으로 이 알고리즘 유형을 최적화하는 것을 기반으로 합니다.
- 두 번째는 사전 처리(귀속 처리/인코딩/스케일링)된 데이터 세트의 최적화된 기능 엔지니어링을 기초로 알고리즘 유형 최적화를 기반으로 합니다.
AutoAI 에 의해 생성되는 모든 파이프라인의 알고리즘에 대한 매개변수 값은 상태 메시지에 공개됩니다.
RbfOpt 알고리즘에 대한 자세한 내용은 다음을 참조하십시오.
기능 유의성은 어떻게 계산됩니까?
분류 또는 회귀 실험을 구성할 때 선택적으로 모델에 영향을 주지 않고 기능을 처리하는 방법을 지정할 수 있습니다. 선택사항은 항상 기능을 제거하거나, 모델 품질을 향상시킬 때 기능을 제거하거나, 기능을 제거하지 않는 것입니다. 기능 유의성은 다음과 같이 계산됩니다.
- 기능 중요도는 데이터 샘플에서 계산됩니다.
- 일부 평가기에는 기능 중요도를 리턴하는 기본 제공 기능이 없습니다. 이 경우 RandomForest 와 같은 추정량을 사용하여 영향을 측정합니다.
- 기능 수가 중요합니다. 기능의 중요도 값이 0.0000000001 이지만 많은 수의 중요도가 낮은 기능 (예: 200개이상) 이 있는 경우 이를 그대로 두거나 제거하면 실험 결과에 약간의 영향을 줄 수 있습니다.
자동 모드에서 다음 단계를 사용하여 중요도가 낮은 기능의 제거가 실험 결과에 영향을 미치지 않는지 유효성 검증합니다.
- 계산된 중요도가 0인 모든 기능을 제거하면 모델 정확도에 약간의 영향을 미치는 경우 주성분 분석 알고리즘이 해당 기능에 적용되고 중요하지 않은 기능에서 분산의 90%를 설명하는 상위 K 구성요소를 선택합니다.
- 그런 다음 변환된 구성요소가 원래 구성요소 대신 새 기능으로 사용되고 모델이 다시 평가됩니다.
- 여전히 정확도가 떨어지는 경우 모든 원래 기능이 실험에 다시 추가됩니다.
참고 문헌
이 목록에는 자동 모델 작성 프로세스의 신뢰와 투명성을 프로모션하기 위해 AutoAI가 어떻게 설계되고 구현되었는지 자세히 설명하는 기본적인 연구 기사가 포함되어 있습니다.
다음 단계
상위 주제: AutoAI 개요