시계열 구현 세부사항
이러한 구현 세부사항은 AutoAI 시계열 실험에 특정한 단계 및 처리를 설명합니다.
구현 세부사항
시계열 실험에 대한 구현 및 구성 세부사항을 참조하십시오.
- 실험을 처리하기 위한 시계열 단계 .
- 파이프라인 튜닝을 위한 시계열 최적화 메트릭 .
- 파이프라인을 빌드하기 위한 시계열 알고리즘 .
- 지원되는 날짜 및 시간 형식.
시계열 단계
AutoAI 시계열 실험은 실험 실행 시 다음 단계를 포함합니다.
단계 1: 초기화
초기화 단계에서는 다음 순서로 훈련 데이터를 처리합니다.
- 데이터 로드
- 데이터 세트 L을 훈련 데이터 T 및 홀드아웃 데이터 H로 분할하십시오.
- 유효성 검증, 시간소인 열 처리 및 이전 검색 창 생성을 설정하십시오. 참고:
- 훈련 데이터(T)가 데이터 세트(L)에서 홀드아웃(H)을 뺀 것과 같습니다. 실험을 구성할 때 홀드아웃 데이터의 크기를 조정할 수 있습니다. 기본적으로 검증용 데이터의 크기는 20단계입니다.
- 선택적으로 시간소인 컬럼을 지정할 수 있습니다.
- 기본적으로, 룩백 창은 신호 처리 방법을 사용하여 계절 기간을 발견하여 자동으로 생성됩니다. 적절한 룩백 기간을 알고 있는 경우에는 값을 직접 지정할 수 있습니다.
단계 2: 파이프라인 선택
파이프라인 선택 단계에서는 T-Daub (대문자를 사용하는 시계열 데이터 할당) 라는 효율적인 방법을 사용합니다. 이 방법은 가장 유망한 파이프라인에 더 많은 훈련 데이터를 할당함으로써 파이프라인을 선택하는 한편, 더 적은 훈련 데이터를 유망하지 않은 파이프라인에 할당한다. 이러한 방식으로 모든 파이프라인이 전체 데이터 세트를 보는 것은 아니며 일반적으로 선택 프로세스가 더 빠릅니다. 다음 단계는 프로세스 개요를 설명합니다.
- 모든 파이프라인에는 훈련 데이터의 여러 작은 서브세트가 순차적으로 할당됩니다. 최신 데이터가 먼저 할당됩니다.
- 각 파이프라인은 훈련 데이터의 할당된 모든 서브세트에서 훈련되고 테스트 데이터 (홀드아웃 데이터) 로 평가됩니다.
- 선형 회귀 모델은 이전 단계에서 설명한 데이터 세트를 사용하여 각 파이프라인에 적용됩니다.
- 파이프라인의 정확도 점수는 전체 훈련 데이터 세트에서 추정됩니다. 이 메소드는 각 파이프라인에 대해 할당된 데이터의 정확성 및 크기를 포함하는 데이터 세트를 생성합니다.
- 최상의 파이프라인은 추정된 정확도 및 할당된 랭크 1에 따라 선택된다.
- 최상의 파이프라인에 더 많은 데이터가 할당됩니다. 그런 다음 다른 파이프라인에 대해 추정된 정확도가 업데이트됩니다.
- 상위 N 파이프라인이 모든 데이터에 대해 훈련될 때까지 이전의 두 단계가 반복됩니다.
단계 3: 모델 평가
이 단계에서 낙찰 파이프라인 N 은 전체 훈련 데이터 세트 T에서 재훈련됩니다. 또한 검증용 데이터 H를 사용하여 평가됩니다.
4단계: 최종 파이프라인 생성
이 단계에서는 낙찰 파이프라인이 전체 데이터 세트(L)에서 다시 훈련되어 최종 파이프라인으로 생성됩니다.
각 파이프라인의 재훈련이 완료되면 파이프라인이 리더보드에 게시됩니다. 파이프라인 세부사항을 검사하거나 파이프라인을 모델로 저장하도록 선택할 수 있습니다.
5단계: 백테스트
마지막 단계에서는 백테스트 방법을 사용하여 낙찰 파이프라인을 재훈련하고 평가합니다. 다음 단계는 백테스트 방법을 설명합니다.
- 훈련 데이터 길이는 백테스트 수, 간격 길이 및 홀드아웃 크기를 기반으로 판별됩니다. 이러한 매개변수에 대해 자세히 학습하려면 시계열 실험 빌드를 참조하십시오.
- 가장 오래된 데이터부터 시작하여 실험은 훈련 데이터를 사용하여 훈련됩니다.
- 또한 실험은 첫 번째 유효성 검증 데이터 세트에서 평가됩니다. 갭 길이가 0이 아닌 경우 갭의 모든 데이터를 건너뜁니다.
- 훈련 데이터 창은 새 훈련 세트를 구성하기 위해 홀드아웃 크기 및 간격 길이를 늘려 진행됩니다.
- 새로운 실험은 이 새 데이터를 사용하여 훈련되고 다음 유효성 검증 데이터 세트를 사용하여 평가됩니다.
- 이전의 두 단계는 나머지 역테스트 기간 동안 반복됩니다.
시계열 최적화 메트릭
기본 메트릭을 사용하거나 실험에 최적화될 메트릭을 선택하십시오.
메트릭 | 설명 |
---|---|
대칭 평균 절대 백분율 오차(SMAPE) | 각 적합점에서 실제 값과 예측값 사이의 절대 차이를 절대 실제 값과 예측값의 합계의 절반으로 나눕니다. 그런 다음, 모든 적합 지점에서 이러한 모든 값에 대해 평균이 계산됩니다. |
평균 절대 오차(MAE) | 실제 값과 예측 값 간의 절대 차이에 대한 평균입니다. |
평균제곱근 오류(RMSE) | 실제 값과 예측 값 간의 제곱 차이 평균에 대한 제곱근입니다. |
R2 | 모델 성능이 기준선 모델 또는 평균 모델과 비교하는 방법을 측정합니다. R2 는 1이하여야 합니다. 음수 R2 값은 고려 중인 모델이 평균 모델보다 나빠짐을 의미합니다. 0 R2 값은 고려 중인 모델이 평균 모델만큼 좋거나 나쁨을 의미합니다. 양의 R2 값은 고려 중인 모델이 평균 모델보다 우수함을 의미합니다. |
실험에 대한 메트릭 검토
시계열 실험의 결과를 볼 때 파이프라인 리더보드에서 실험을 훈련하는 데 사용되는 메트릭의 값을 볼 수 있습니다.
시계열 실험에 대한 정확도 측정값은 평가된 실험 데이터에 따라 광범위하게 달라질 수 있음을 알 수 있습니다.
- 유효성 검증은 훈련 데이터에 대해 계산된 점수입니다.
- 홀드아웃은 예약된 홀드아웃 데이터에 대해 계산된 점수입니다.
- 백테스트는 모든 백테스트 점수의 평균 점수입니다.
시계열 알고리즘
다음 알고리즘을 시계열 실험에 사용할 수 있습니다. 기본적으로 선택되는 알고리즘을 사용하거나 특정 알고리즘을 포함하거나 제외하도록 실험을 구성할 수 있습니다.
알고리즘 | 설명 |
---|---|
ARIMA | 자기회귀 통합 이동 평균 (ARIMA) 모델은 비고정 데이터를 차분을 통해 고정 데이터로 변환한 후 시차 값 및 시차 예측 오류를 포함하여 과거 값을 사용하여 다음 값을 예측할 수 있는 일반적인 시계열 모델입니다. |
BATS | BATS 알고리즘은 박스-콕스 변환, ARMA 잔차, 추세 및 계절성 요인을 결합하여 미래 값을 예측합니다. |
앙상블 | 앙상블은 단순 예측의 정확도를 극복하고 가능한 과적합을 방지하기 위해 다중 예측 메소드를 결합합니다. |
Holt-Winters | 계열이 시간 경과에 따라 반복되는 경우 (계절), 3중 지수 평활을 사용하여 계열의 데이터 점을 예측합니다. 두 가지 유형의 Holt-Winters 모델인 가법적 Holt-Winters 및 승법적 Holt-Winters가 제공됩니다. |
랜덤 포레스트 | 앙상블의 각 트리가 훈련 세트의 대체 (예: 부트스트랩 표본) 로 그려진 표본에서 작성되는 트리 기반 회귀 모형입니다. |
SVM(Support Vector Machine) | SVM은 회귀 및 분류 모두에 사용할 수 있는 기계 학습 모델의 한 유형입니다. SVM은 하이퍼플레인을 사용하여 데이터를 별도의 클래스로 나눕니다. |
선형 회귀분석 | AR 프로세스를 따르는 잔차를 사용하여 시계열 변수와 날짜/시간 또는 시간 지수 사이의 선형 관계를 작성합니다. |
지원되는 날짜 및 시간 형식
시계열 실험에서 지원되는 날짜/시간 형식은 dateutil에서 제공하는 정의를 기반으로 합니다.
지원되는 날짜 형식은 다음과 같습니다.
일반:
YYYY
YYYY-MM, YYYY/MM, or YYYYMM
YYYY-MM-DD or YYYYMMDD
mm/dd/yyyy
mm-dd-yyyy
JAN YYYY
특수:
YYYY-Www or YYYYWww - ISO week (day defaults to 0)
YYYY-Www-D or YYYYWwwD - ISO week and day
ISO주 및 일 값의 숫자는 datetime.date.isocalendar() 와 동일한 로직을 따릅니다.
지원되는 시간 형식은 다음과 같습니다.
hh
hh:mm or hhmm
hh:mm:ss or hhmmss
hh:mm:ss.ssssss (Up to 6 sub-second digits)
dd-MMM
yyyy/mm
참고:
- 자정은 00:00 또는 24:00으로 표시할 수 있습니다. 소수점 구분 기호는 마침료 또는 쉼표일 수 있습니다.
- 날짜는 큰따옴표를 사용하여 문자열로 제출할 수 있습니다 (예: "1958-01-16").
지원 기능
외인성 특징부로도 알려진 지지 특징부는 예측 표적에 영향을 줄 수 있는 입력 특징부이다. 지원 기능을 사용하여 예측을 개선하고 모델의 정확도를 높이기 위해 데이터 세트의 추가 열을 포함할 수 있습니다. 예를 들어, 시간 경과에 따른 가격을 예측하기 위한 시계열 실험에서 지원 기능은 판매 및 판촉에 대한 데이터일 수 있습니다. 또는 매일의 온도를 포함하여 에너지 소비를 예측하는 모델에서는 예측을 더 정확하게 만듭니다.
지원 기능을 사용하는 알고리즘 및 파이프라인
알고리즘의 서브세트만 지원 기능을 허용합니다. 예를 들어, Holt-winters및 BATS는 지원 기능의 사용을 지원하지 않습니다. 지원 기능을 지원하지 않는 알고리즘은 실험을 실행할 때 지원 기능에 대한 선택사항을 무시합니다.
일부 알고리즘은 알고리즘의 특정 변형에 대해 지원 기능을 사용하지만 다른 알고리즘에 대해서는 지원 기능을 사용하지 않습니다. 예를 들어 랜덤 포레스트 알고리즘을 사용하여 두 개의 서로 다른 파이프라인, 즉 RandomForestRegressor ExogenousRandomForestRegressor 생성할 수 있습니다. ExogenousRandomForestRegressor 변형은 지원 기능을 제공하는 반면, RandomForestRegressor 지원하지 않습니다.
이 테이블은 알고리즘이 시계열 실험에서 지원 기능에 대한 지원을 제공하는지 여부를 자세히 설명합니다.
알고리즘 | 파이프라인 | 지원 기능에 대한 지원 제공 |
---|---|---|
랜덤 포리스트 | RandomForestRegressor | 아니오 |
랜덤 포리스트 | ExogenousRandomForestRegressor | 예 |
SVM | SVM | 아니오 |
SVM | ExogenousSVM | 예 |
앙상블 | LocalizedFlattenEnsembler | 예 |
앙상블 | DifferenceFlattenEnsembler | 아니오 |
앙상블 | FlattenEnsembler | 아니오 |
앙상블 | ExogenousLocalizedFlattenEnsembler | 예 |
앙상블 | ExogenousDifferenceFlattenEnsembler | 예 |
앙상블 | ExogenousFlattenEnsembler | 예 |
회귀분석 | MT2RForecaster | 아니오 |
회귀분석 | ExogenousMT2RForecaster | 예 |
Holt-Winters | HoltWinterAdditive | 아니오 |
Holt-Winters | HoltWinterMultiplicative | 아니오 |
BATS | BATS | 아니오 |
ARIMA | ARIMA | 아니오 |
ARIMA | ARIMAX | 예 |
ARIMA | ARIMAX_RSAR | 예 |
ARIMA | ARIMAX_PALR | 예 |
ARIMA | ARIMAX_RAR | 예 |
ARIMA | ARIMAX_DMLR | 예 |
자세히 알아보기
상위 주제: 시계열 실험 빌드