훈련 데이터(T)가 데이터 세트(L)에서 홀드아웃(H)을 뺀 것과 같습니다. 실험을 구성할 때 홀드아웃 데이터의 크기를 조정할 수 있습니다. 기본적으로 검증용 데이터의 크기는 20단계입니다.
선택적으로 시간소인 컬럼을 지정할 수 있습니다.
기본적으로, 룩백 창은 신호 처리 방법을 사용하여 계절 기간을 발견하여 자동으로 생성됩니다. 적절한 룩백 기간을 알고 있는 경우에는 값을 직접 지정할 수 있습니다.
단계 2: 파이프라인 선택
Copy link to section
파이프라인 선택 단계에서는 T-Daub (대문자를 사용하는 시계열 데이터 할당) 라는 효율적인 방법을 사용합니다. 이 방법은 가장 유망한 파이프라인에 더 많은 훈련 데이터를 할당함으로써 파이프라인을 선택하는 한편, 더 적은 훈련 데이터를 유망하지 않은 파이프라인에 할당한다. 이러한 방식으로 모든 파이프라인이 전체 데이터 세트를 보는 것은 아니며 일반적으로 선택 프로세스가 더 빠릅니다. 다음 단계는 프로세스 개요를 설명합니다.
모든 파이프라인에는 훈련 데이터의 여러 작은 서브세트가 순차적으로 할당됩니다. 최신 데이터가 먼저 할당됩니다.
각 파이프라인은 훈련 데이터의 할당된 모든 서브세트에서 훈련되고 테스트 데이터 (홀드아웃 데이터) 로 평가됩니다.
선형 회귀 모델은 이전 단계에서 설명한 데이터 세트를 사용하여 각 파이프라인에 적용됩니다.
파이프라인의 정확도 점수는 전체 훈련 데이터 세트에서 추정됩니다. 이 메소드는 각 파이프라인에 대해 할당된 데이터의 정확성 및 크기를 포함하는 데이터 세트를 생성합니다.
최상의 파이프라인은 추정된 정확도 및 할당된 랭크 1에 따라 선택된다.
최상의 파이프라인에 더 많은 데이터가 할당됩니다. 그런 다음 다른 파이프라인에 대해 추정된 정확도가 업데이트됩니다.
상위 N 파이프라인이 모든 데이터에 대해 훈련될 때까지 이전의 두 단계가 반복됩니다.
단계 3: 모델 평가
Copy link to section
이 단계에서 낙찰 파이프라인 N 은 전체 훈련 데이터 세트 T에서 재훈련됩니다. 또한 검증용 데이터 H를 사용하여 평가됩니다.
4단계: 최종 파이프라인 생성
Copy link to section
이 단계에서는 낙찰 파이프라인이 전체 데이터 세트(L)에서 다시 훈련되어 최종 파이프라인으로 생성됩니다.
각 파이프라인의 재훈련이 완료되면 파이프라인이 리더보드에 게시됩니다. 파이프라인 세부사항을 검사하거나 파이프라인을 모델로 저장하도록 선택할 수 있습니다.
5단계: 백테스트
Copy link to section
마지막 단계에서는 백테스트 방법을 사용하여 낙찰 파이프라인을 재훈련하고 평가합니다. 다음 단계는 백테스트 방법을 설명합니다.
훈련 데이터 길이는 백테스트 수, 간격 길이 및 홀드아웃 크기를 기반으로 판별됩니다. 이러한 매개변수에 대해 자세히 학습하려면 시계열 실험 빌드를 참조하십시오.
가장 오래된 데이터부터 시작하여 실험은 훈련 데이터를 사용하여 훈련됩니다.
또한 실험은 첫 번째 유효성 검증 데이터 세트에서 평가됩니다. 갭 길이가 0이 아닌 경우 갭의 모든 데이터를 건너뜁니다.
훈련 데이터 창은 새 훈련 세트를 구성하기 위해 홀드아웃 크기 및 간격 길이를 늘려 진행됩니다.
새로운 실험은 이 새 데이터를 사용하여 훈련되고 다음 유효성 검증 데이터 세트를 사용하여 평가됩니다.
이전의 두 단계는 나머지 역테스트 기간 동안 반복됩니다.
시계열 최적화 메트릭
Copy link to section
기본 메트릭을 사용하거나 실험에 최적화될 메트릭을 선택하십시오.
메트릭
설명
대칭 평균 절대 백분율 오차(SMAPE)
각 적합점에서 실제 값과 예측값 사이의 절대 차이를 절대 실제 값과 예측값의 합계의 절반으로 나눕니다. 그런 다음, 모든 적합 지점에서 이러한 모든 값에 대해 평균이 계산됩니다.
평균 절대 오차(MAE)
실제 값과 예측 값 간의 절대 차이에 대한 평균입니다.
평균제곱근 오류(RMSE)
실제 값과 예측 값 간의 제곱 차이 평균에 대한 제곱근입니다.
R2
모델 성능이 기준선 모델 또는 평균 모델과 비교하는 방법을 측정합니다. R2 는 1이하여야 합니다. 음수 R2 값은 고려 중인 모델이 평균 모델보다 나빠짐을 의미합니다. 0 R2 값은 고려 중인 모델이 평균 모델만큼 좋거나 나쁨을 의미합니다. 양의 R2 값은 고려 중인 모델이 평균 모델보다 우수함을 의미합니다.
실험에 대한 메트릭 검토
Copy link to section
시계열 실험의 결과를 볼 때 파이프라인 리더보드에서 실험을 훈련하는 데 사용되는 메트릭의 값을 볼 수 있습니다.
시계열 실험에 대한 정확도 측정값은 평가된 실험 데이터에 따라 광범위하게 달라질 수 있음을 알 수 있습니다.
유효성 검증은 훈련 데이터에 대해 계산된 점수입니다.
홀드아웃은 예약된 홀드아웃 데이터에 대해 계산된 점수입니다.
백테스트는 모든 백테스트 점수의 평균 점수입니다.
시계열 알고리즘
Copy link to section
다음 알고리즘을 시계열 실험에 사용할 수 있습니다. 기본적으로 선택되는 알고리즘을 사용하거나 특정 알고리즘을 포함하거나 제외하도록 실험을 구성할 수 있습니다.
알고리즘
설명
ARIMA
자기회귀 통합 이동 평균 (ARIMA) 모델은 비고정 데이터를 차분을 통해 고정 데이터로 변환한 후 시차 값 및 시차 예측 오류를 포함하여 과거 값을 사용하여 다음 값을 예측할 수 있는 일반적인 시계열 모델입니다.
BATS
BATS 알고리즘은 박스-콕스 변환, ARMA 잔차, 추세 및 계절성 요인을 결합하여 미래 값을 예측합니다.
앙상블
앙상블은 단순 예측의 정확도를 극복하고 가능한 과적합을 방지하기 위해 다중 예측 메소드를 결합합니다.
Holt-Winters
계열이 시간 경과에 따라 반복되는 경우 (계절), 3중 지수 평활을 사용하여 계열의 데이터 점을 예측합니다. 두 가지 유형의 Holt-Winters 모델인 가법적 Holt-Winters 및 승법적 Holt-Winters가 제공됩니다.
랜덤 포레스트
앙상블의 각 트리가 훈련 세트의 대체 (예: 부트스트랩 표본) 로 그려진 표본에서 작성되는 트리 기반 회귀 모형입니다.
SVM(Support Vector Machine)
SVM은 회귀 및 분류 모두에 사용할 수 있는 기계 학습 모델의 한 유형입니다. SVM은 하이퍼플레인을 사용하여 데이터를 별도의 클래스로 나눕니다.
선형 회귀분석
AR 프로세스를 따르는 잔차를 사용하여 시계열 변수와 날짜/시간 또는 시간 지수 사이의 선형 관계를 작성합니다.
지원되는 날짜 및 시간 형식
Copy link to section
시계열 실험에서 지원되는 날짜/시간 형식은 dateutil에서 제공하는 정의를 기반으로 합니다.
지원되는 날짜 형식은 다음과 같습니다.
일반:
YYYY
YYYY-MM, YYYY/MM, or YYYYMM
YYYY-MM-DD or YYYYMMDD
mm/dd/yyyy
mm-dd-yyyy
JAN YYYY
Copy to clipboard클립보드에 복사됨
특수:
YYYY-Www or YYYYWww - ISO week (day defaults to 0)
YYYY-Www-D or YYYYWwwD - ISO week and day
Copy to clipboard클립보드에 복사됨
ISO주 및 일 값의 숫자는 datetime.date.isocalendar() 와 동일한 로직을 따릅니다.
지원되는 시간 형식은 다음과 같습니다.
hh
hh:mm or hhmm
hh:mm:ss or hhmmss
hh:mm:ss.ssssss (Up to 6 sub-second digits)
dd-MMM
yyyy/mm
Copy to clipboard클립보드에 복사됨
참고:
자정은 00:00 또는 24:00으로 표시할 수 있습니다. 소수점 구분 기호는 마침료 또는 쉼표일 수 있습니다.
날짜는 큰따옴표를 사용하여 문자열로 제출할 수 있습니다 (예: "1958-01-16").
지원 기능
Copy link to section
외인성 특징부로도 알려진 지지 특징부는 예측 표적에 영향을 줄 수 있는 입력 특징부이다. 지원 기능을 사용하여 예측을 개선하고 모델의 정확도를 높이기 위해 데이터 세트의 추가 열을 포함할 수 있습니다. 예를 들어, 시간 경과에 따른 가격을 예측하기 위한 시계열 실험에서 지원 기능은 판매 및 판촉에 대한 데이터일 수 있습니다. 또는 매일의 온도를 포함하여 에너지 소비를 예측하는 모델에서는 예측을 더 정확하게 만듭니다.
지원 기능을 사용하는 알고리즘 및 파이프라인
Copy link to section
알고리즘의 서브세트만 지원 기능을 허용합니다. 예를 들어, Holt-winters및 BATS는 지원 기능의 사용을 지원하지 않습니다. 지원 기능을 지원하지 않는 알고리즘은 실험을 실행할 때 지원 기능에 대한 선택사항을 무시합니다.
일부 알고리즘은 알고리즘의 특정 변형에 대해 지원 기능을 사용하지만 다른 알고리즘에 대해서는 지원 기능을 사용하지 않습니다. 예를 들어 랜덤 포레스트 알고리즘을 사용하여 두 개의 서로 다른 파이프라인, 즉 RandomForestRegressorExogenousRandomForestRegressor 생성할 수 있습니다. ExogenousRandomForestRegressor 변형은 지원 기능을 제공하는 반면, RandomForestRegressor 지원하지 않습니다.
이 테이블은 알고리즘이 시계열 실험에서 지원 기능에 대한 지원을 제공하는지 여부를 자세히 설명합니다.