시계열 구현 세부사항

마지막 업데이트 날짜: 2024년 10월 04일
시계열 구현 세부사항

이러한 구현 세부사항은 AutoAI 시계열 실험에 특정한 단계 및 처리를 설명합니다.

구현 세부사항

시계열 실험에 대한 구현 및 구성 세부사항을 참조하십시오.

시계열 단계

AutoAI 시계열 실험은 실험 실행 시 다음 단계를 포함합니다.

  1. 초기화
  2. 파이프라인 선택
  3. 모델 평가
  4. 최종 파이프라인 생성
  5. 백테스트

단계 1: 초기화

초기화 단계에서는 다음 순서로 훈련 데이터를 처리합니다.

  • 데이터 로드
  • 데이터 세트 L을 훈련 데이터 T 및 홀드아웃 데이터 H로 분할하십시오.
  • 유효성 검증, 시간소인 열 처리 및 이전 검색 창 생성을 설정하십시오. 참고:
    • 훈련 데이터(T)가 데이터 세트(L)에서 홀드아웃(H)을 뺀 것과 같습니다. 실험을 구성할 때 홀드아웃 데이터의 크기를 조정할 수 있습니다. 기본적으로 검증용 데이터의 크기는 20단계입니다.
    • 선택적으로 시간소인 컬럼을 지정할 수 있습니다.
    • 기본적으로, 룩백 창은 신호 처리 방법을 사용하여 계절 기간을 발견하여 자동으로 생성됩니다. 적절한 룩백 기간을 알고 있는 경우에는 값을 직접 지정할 수 있습니다.

단계 2: 파이프라인 선택

파이프라인 선택 단계에서는 T-Daub (대문자를 사용하는 시계열 데이터 할당) 라는 효율적인 방법을 사용합니다. 이 방법은 가장 유망한 파이프라인에 더 많은 훈련 데이터를 할당함으로써 파이프라인을 선택하는 한편, 더 적은 훈련 데이터를 유망하지 않은 파이프라인에 할당한다. 이러한 방식으로 모든 파이프라인이 전체 데이터 세트를 보는 것은 아니며 일반적으로 선택 프로세스가 더 빠릅니다. 다음 단계는 프로세스 개요를 설명합니다.

  1. 모든 파이프라인에는 훈련 데이터의 여러 작은 서브세트가 순차적으로 할당됩니다. 최신 데이터가 먼저 할당됩니다.
  2. 각 파이프라인은 훈련 데이터의 할당된 모든 서브세트에서 훈련되고 테스트 데이터 (홀드아웃 데이터) 로 평가됩니다.
  3. 선형 회귀 모델은 이전 단계에서 설명한 데이터 세트를 사용하여 각 파이프라인에 적용됩니다.
  4. 파이프라인의 정확도 점수는 전체 훈련 데이터 세트에서 추정됩니다. 이 메소드는 각 파이프라인에 대해 할당된 데이터의 정확성 및 크기를 포함하는 데이터 세트를 생성합니다.
  5. 최상의 파이프라인은 추정된 정확도 및 할당된 랭크 1에 따라 선택된다.
  6. 최상의 파이프라인에 더 많은 데이터가 할당됩니다. 그런 다음 다른 파이프라인에 대해 추정된 정확도가 업데이트됩니다.
  7. 상위 N 파이프라인이 모든 데이터에 대해 훈련될 때까지 이전의 두 단계가 반복됩니다.

단계 3: 모델 평가

이 단계에서 낙찰 파이프라인 N 은 전체 훈련 데이터 세트 T에서 재훈련됩니다. 또한 검증용 데이터 H를 사용하여 평가됩니다.

4단계: 최종 파이프라인 생성

이 단계에서는 낙찰 파이프라인이 전체 데이터 세트(L)에서 다시 훈련되어 최종 파이프라인으로 생성됩니다.

각 파이프라인의 재훈련이 완료되면 파이프라인이 리더보드에 게시됩니다. 파이프라인 세부사항을 검사하거나 파이프라인을 모델로 저장하도록 선택할 수 있습니다.

5단계: 백테스트

마지막 단계에서는 백테스트 방법을 사용하여 낙찰 파이프라인을 재훈련하고 평가합니다. 다음 단계는 백테스트 방법을 설명합니다.

  1. 훈련 데이터 길이는 백테스트 수, 간격 길이 및 홀드아웃 크기를 기반으로 판별됩니다. 이러한 매개변수에 대해 자세히 학습하려면 시계열 실험 빌드를 참조하십시오.
  2. 가장 오래된 데이터부터 시작하여 실험은 훈련 데이터를 사용하여 훈련됩니다.
  3. 또한 실험은 첫 번째 유효성 검증 데이터 세트에서 평가됩니다. 갭 길이가 0이 아닌 경우 갭의 모든 데이터를 건너뜁니다.
  4. 훈련 데이터 창은 새 훈련 세트를 구성하기 위해 홀드아웃 크기 및 간격 길이를 늘려 진행됩니다.
  5. 새로운 실험은 이 새 데이터를 사용하여 훈련되고 다음 유효성 검증 데이터 세트를 사용하여 평가됩니다.
  6. 이전의 두 단계는 나머지 역테스트 기간 동안 반복됩니다.

시계열 최적화 메트릭

기본 메트릭을 사용하거나 실험에 최적화될 메트릭을 선택하십시오.

메트릭 설명
대칭 평균 절대 백분율 오차(SMAPE) 각 적합점에서 실제 값과 예측값 사이의 절대 차이를 절대 실제 값과 예측값의 합계의 절반으로 나눕니다. 그런 다음, 모든 적합 지점에서 이러한 모든 값에 대해 평균이 계산됩니다.
평균 절대 오차(MAE) 실제 값과 예측 값 간의 절대 차이에 대한 평균입니다.
평균제곱근 오류(RMSE) 실제 값과 예측 값 간의 제곱 차이 평균에 대한 제곱근입니다.
R2 모델 성능이 기준선 모델 또는 평균 모델과 비교하는 방법을 측정합니다. R2 는 1이하여야 합니다. 음수 R2 값은 고려 중인 모델이 평균 모델보다 나빠짐을 의미합니다. 0 R2 값은 고려 중인 모델이 평균 모델만큼 좋거나 나쁨을 의미합니다. 양의 R2 값은 고려 중인 모델이 평균 모델보다 우수함을 의미합니다.

실험에 대한 메트릭 검토

시계열 실험의 결과를 볼 때 파이프라인 리더보드에서 실험을 훈련하는 데 사용되는 메트릭의 값을 볼 수 있습니다.

실험 결과 검토

시계열 실험에 대한 정확도 측정값은 평가된 실험 데이터에 따라 광범위하게 달라질 수 있음을 알 수 있습니다.

  • 유효성 검증은 훈련 데이터에 대해 계산된 점수입니다.
  • 홀드아웃은 예약된 홀드아웃 데이터에 대해 계산된 점수입니다.
  • 백테스트는 모든 백테스트 점수의 평균 점수입니다.

시계열 알고리즘

다음 알고리즘을 시계열 실험에 사용할 수 있습니다. 기본적으로 선택되는 알고리즘을 사용하거나 특정 알고리즘을 포함하거나 제외하도록 실험을 구성할 수 있습니다.

알고리즘 설명
ARIMA 자기회귀 통합 이동 평균 (ARIMA) 모델은 비고정 데이터를 차분을 통해 고정 데이터로 변환한 후 시차 값 및 시차 예측 오류를 포함하여 과거 값을 사용하여 다음 값을 예측할 수 있는 일반적인 시계열 모델입니다.
BATS BATS 알고리즘은 박스-콕스 변환, ARMA 잔차, 추세 및 계절성 요인을 결합하여 미래 값을 예측합니다.
앙상블 앙상블은 단순 예측의 정확도를 극복하고 가능한 과적합을 방지하기 위해 다중 예측 메소드를 결합합니다.
Holt-Winters 계열이 시간 경과에 따라 반복되는 경우 (계절), 3중 지수 평활을 사용하여 계열의 데이터 점을 예측합니다. 두 가지 유형의 Holt-Winters 모델인 가법적 Holt-Winters 및 승법적 Holt-Winters가 제공됩니다.
랜덤 포레스트 앙상블의 각 트리가 훈련 세트의 대체 (예: 부트스트랩 표본) 로 그려진 표본에서 작성되는 트리 기반 회귀 모형입니다.
SVM(Support Vector Machine) SVM은 회귀 및 분류 모두에 사용할 수 있는 기계 학습 모델의 한 유형입니다. SVM은 하이퍼플레인을 사용하여 데이터를 별도의 클래스로 나눕니다.
선형 회귀분석 AR 프로세스를 따르는 잔차를 사용하여 시계열 변수와 날짜/시간 또는 시간 지수 사이의 선형 관계를 작성합니다.

지원되는 날짜 및 시간 형식

시계열 실험에서 지원되는 날짜/시간 형식은 dateutil에서 제공하는 정의를 기반으로 합니다.

지원되는 날짜 형식은 다음과 같습니다.

일반:

    YYYY
    YYYY-MM, YYYY/MM, or YYYYMM
    YYYY-MM-DD or YYYYMMDD
    mm/dd/yyyy
    mm-dd-yyyy
    JAN YYYY

특수:

    YYYY-Www or YYYYWww - ISO week (day defaults to 0)
    YYYY-Www-D or YYYYWwwD - ISO week and day

ISO주 및 일 값의 숫자는 datetime.date.isocalendar() 와 동일한 로직을 따릅니다.

지원되는 시간 형식은 다음과 같습니다.

    hh
    hh:mm or hhmm
    hh:mm:ss or hhmmss
    hh:mm:ss.ssssss (Up to 6 sub-second digits)
    dd-MMM 
    yyyy/mm 

참고:

  • 자정은 00:00 또는 24:00으로 표시할 수 있습니다. 소수점 구분 기호는 마침료 또는 쉼표일 수 있습니다.
  • 날짜는 큰따옴표를 사용하여 문자열로 제출할 수 있습니다 (예: "1958-01-16").

지원 기능

외인성 특징부로도 알려진 지지 특징부는 예측 표적에 영향을 줄 수 있는 입력 특징부이다. 지원 기능을 사용하여 예측을 개선하고 모델의 정확도를 높이기 위해 데이터 세트의 추가 열을 포함할 수 있습니다. 예를 들어, 시간 경과에 따른 가격을 예측하기 위한 시계열 실험에서 지원 기능은 판매 및 판촉에 대한 데이터일 수 있습니다. 또는 매일의 온도를 포함하여 에너지 소비를 예측하는 모델에서는 예측을 더 정확하게 만듭니다.

지원 기능을 사용하는 알고리즘 및 파이프라인

알고리즘의 서브세트만 지원 기능을 허용합니다. 예를 들어, Holt-winters및 BATS는 지원 기능의 사용을 지원하지 않습니다. 지원 기능을 지원하지 않는 알고리즘은 실험을 실행할 때 지원 기능에 대한 선택사항을 무시합니다.

일부 알고리즘은 알고리즘의 특정 변형에 대해 지원 기능을 사용하지만 다른 알고리즘에 대해서는 지원 기능을 사용하지 않습니다. 예를 들어 랜덤 포레스트 알고리즘을 사용하여 두 개의 서로 다른 파이프라인, 즉 RandomForestRegressor ExogenousRandomForestRegressor 생성할 수 있습니다. ExogenousRandomForestRegressor 변형은 지원 기능을 제공하는 반면, RandomForestRegressor 지원하지 않습니다.

이 테이블은 알고리즘이 시계열 실험에서 지원 기능에 대한 지원을 제공하는지 여부를 자세히 설명합니다.

알고리즘 파이프라인 지원 기능에 대한 지원 제공
랜덤 포리스트 RandomForestRegressor 아니오
랜덤 포리스트 ExogenousRandomForestRegressor
SVM SVM 아니오
SVM ExogenousSVM
앙상블 LocalizedFlattenEnsembler
앙상블 DifferenceFlattenEnsembler 아니오
앙상블 FlattenEnsembler 아니오
앙상블 ExogenousLocalizedFlattenEnsembler
앙상블 ExogenousDifferenceFlattenEnsembler
앙상블 ExogenousFlattenEnsembler
회귀분석 MT2RForecaster 아니오
회귀분석 ExogenousMT2RForecaster
Holt-Winters HoltWinterAdditive 아니오
Holt-Winters HoltWinterMultiplicative 아니오
BATS BATS 아니오
ARIMA ARIMA 아니오
ARIMA ARIMAX
ARIMA ARIMAX_RSAR
ARIMA ARIMAX_PALR
ARIMA ARIMAX_RAR
ARIMA ARIMAX_DMLR

자세히 알아보기

시계열 모델 스코어링

상위 주제: 시계열 실험 빌드