0 / 0
영어 버전 문서로 돌아가기
시계열 실험 빌드
마지막 업데이트 날짜: 2024년 11월 28일
시계열 실험 빌드

AutoAI 를 사용하여 지정된 날짜 또는 시간 범위 동안 향후 활동 (예: 주식 가격 또는 온도) 을 예측하기 위한 시계열 실험을 작성합니다.

시계열 개요

시계열 실험은 히스토리 관측값을 사용하여 미래 값을 예측하는 예측 방법입니다. 이 실험은 랜덤 포리스트 회귀 및 SVM (Support Vector Machines) 과 같은 기계 학습 모델과 ARIMA및 Holt-Winters와 같은 통계 시계열 모델을 사용하여 많은 파이프라인을 자동으로 빌드합니다. 그런 다음 실험은 검증 데이터 세트 또는 백테스트 데이터 세트에서 평가된 파이프라인 성능에 따라 최상의 파이프라인을 권장합니다.

완료할 파이프라인 세트를 빌드한 후 순위를 지정하는 표준 AutoAI 실험과는 다릅니다. 시계열 실험은 프로세스의 초기에 파이프라인을 평가하고 최상의 성능을 수행하는 파이프라인만 완료하고 테스트합니다.

AutoAI 시계열 파이프라인 생성 프로세스

시계열 실험을 훈련 및 테스트하는 다양한 단계에 대한 자세한 내용은 시계열 구현 세부사항을 참조하십시오.

지원 기능을 사용하여 예측 개선

시계열 실험을 구성할 때 외부 기능이라고도 하는 지원 기능을 지정하도록 선택할 수 있습니다. 지원 기능은 예측 대상에 컨텍스트를 추가하거나 영향을 주는 기능입니다. 예를 들어, 아이스크림 판매를 예측하는 경우, 일일 온도는 예측을 더 정확하게 하는 논리적 지원 기능이 될 수 있습니다.

지원 기능에 대한 향후 가치 활용

지원 기능의 미래 값을 알고 있는 경우 모델을 배치할 때 해당 미래 값을 활용할 수 있습니다. 예를 들어, 향후 티셔츠 판매를 예측하기 위해 모델을 훈련하는 경우 판촉 할인을 지원 기능으로 포함하여 예측을 개선할 수 있습니다. 판촉의 미래 값 을 입력하면 예측이 더 정확해집니다.

데이터 요구사항

다음은 시계열 실험을 훈련하기 위한 현재 데이터 요구사항입니다.

  • 훈련 데이터는 CSV 형식의 단일 파일이어야 합니다.

  • 파일에는 하나 이상의 시계열 열이 포함되어야 하며 선택적으로 시간소인 열이 포함됩니다. 지원되는 날짜/시간 형식 목록은 AutoAI 시계열 구현 세부사항을 참조하십시오.

  • 데이터 소스에 시간소인 컬럼이 있는 경우 데이터가 일정한 빈도로 샘플링되는지 확인하십시오. 즉, 인접 행의 시간소인 차이가 동일합니다. 예를 들어, 데이터의 증분은 1분, 1시간또는 1일일 수 있습니다. 지정된 시간소인은 모델 정확성을 향상시키기 위해 이전 검색 창을 판별하는 데 사용됩니다.

    참고:

    파일 크기가 1GB보다 큰 경우 데이터를 시간소인에 따라 내림차순 으로 정렬하십시오. 실험을 훈련하는 데 처음 1GB만 사용됩니다.

  • 데이터 소스에 시간소인 열이 포함되지 않은 경우, 데이터가 정기적으로 샘플링되고 샘플 날짜/시간에 따라 오름차순 으로 정렬되는지 확인하십시오. 즉, 첫 번째 행의 값은 가장 오래된 값이고 마지막 행의 값은 가장 최근 값입니다.

    참고: 파일 크기가 1GB보다 큰 경우 1GB보다 작도록 파일을 자르십시오.
  • 최종 파이프라인 교육 시 사용할 데이터를 선택하십시오. 교육 데이터만 포함하도록 선택하는 경우 생성된 노트북에는 각 파이프라인을 평가하는 데 사용되는 검증용 데이터를 검색하기 위한 셀이 포함됩니다.

프로젝트에서 데이터를 선택하거나 파일 시스템 또는 자산 브라우저에서 데이터를 업로드한 후 계속을 클릭하십시오. 데이터 원본 이름 뒤에 있는 미리 보기 alt="AutoAI 미리 보기 데이터 세트 아이콘" 클릭하여 데이터를 검토합니다. 선택적으로 훈련된 파이프라인을 테스트하기 위한 홀드아웃 데이터로 두 번째 파일을 추가할 수 있습니다.

시계열 실험 구성

실험에 대한 세부사항을 구성할 때 를 눌러 시계열 사용 으로 설정하고 실험 세부사항을 완료하십시오.

필드 설명
예측 열 이전 값을 기반으로 예측하려는 시계열 열입니다. 예측할 열을 하나 이상 지정할 수 있습니다.
날짜/시간 열 시계열 값이 발생하는 날짜/시간을 표시하는 열입니다.
룩백 창 현재 시간 지점을 예측하는 데 사용되는 이전 시계열 값의 수를 표시하는 매개변수입니다.
예측 창 이전 검색 창의 데이터를 기반으로 예측할 범위입니다.

예측 요약은 실험을 최적화하기 위해 선택되는 메트릭 및 실험 유형을 표시합니다.

실험 설정 구성

시계열 실험에 대한 세부사항을 구성하려면 실험 설정을 클릭하십시오.

일반 예측 설정

예측 설정에 대한 일반 패널에서 실험을 최적화하는 데 사용되는 메트릭을 선택적으로 변경하거나 고려할 알고리즘 또는 생성할 파이프라인 수를 지정할 수 있습니다.

필드 설명
예측 유형 실험에 대한 예측 열을 기반으로 예측 유형을 보거나 변경하십시오. 시계열 실험의 경우 기본적으로 시계열 예측 이 선택됩니다.
참고: 예측 유형을 변경하면 실험에 대한 다른 예측 설정이 자동으로 변경됩니다.
최적화된 메트릭 실험에 대해 권장되는 최적화된 메트릭을 보거나 변경하십시오.
최적화된 알고리즘 선택 시계열 실험에 대해서는 지원되지 않습니다.
포함할 알고리즘 실험에서 파이프라인을 작성할 알고리즘을 선택하십시오. 지원 기능의 사용을 지원하는 알고리즘 및 파이프라인은 선택 표시로 표시됩니다.
완료할 파이프라인 실험에 대해 생성할 파이프라인 수를 보거나 변경하십시오.

시계열 구성 세부사항

예측 설정에 대한 시계열 분할창에서 실험을 훈련하고 예측을 생성하는 방법에 대한 세부사항을 구성하십시오.

필드 설명
날짜/시간 열 실험에 대한 날짜/시간 열을 보거나 변경합니다.
룩백 창 현재 시간 지점을 예측하는 데 사용되는 이전 시계열 값의 수를 보거나 업데이트합니다.
예측 창 예측할 범위를 보거나 업데이트하십시오.

데이터 소스 설정 구성

입력 데이터에 대한 세부사항을 구성하려면 실험 설정 을 클릭하고 데이터 소스를 선택하십시오.

일반 데이터 소스 설정

데이터 소스 설정의 일반 패널에서 데이터 세트를 수정하여 결측값을 보간하고 데이터 세트를 훈련 및 검증용 데이터로 분할하며 지원되는 기능을 입력할 수 있습니다.

필드 설명
중복 행 시계열 실험에 대해서는 지원되지 않습니다.
데이터 서브샘플링 시계열 실험에 대해서는 지원되지 않습니다.
텍스트 기능 엔지니어링 시계열 실험에 대해서는 지원되지 않습니다.
최종 교육 데이터 세트 최종 파이프라인을 훈련할 때 사용할 데이터 (훈련 데이터 또는 훈련 및 검증용 데이터만) 를 선택하십시오. 훈련 데이터만 포함하도록 선택하는 경우 이 실험에 대해 생성된 노트북에는 각 파이프라인을 평가하는 데 사용되는 홀드아웃 데이터를 검색하기 위한 셀이 포함됩니다.
지원 기능 데이터 세트에서 추가 열을 지원 기능으로 선택하여 예측을 지원하고 모델의 정확도를 높이십시오. 지원 기능의 향후 값 활용을 사용으로 설정하여 지원 기능에 대한 향후 값을 사용할 수도 있습니다.
참고: 선택한 알고리즘 및 파이프라인에서만 지원 기능을 사용할 수 있습니다. 지원 기능의 사용을 지원하는 알고리즘 및 파이프라인에 대한 자세한 정보는 시계열 구현 세부사항을 참조하십시오.
데이터 대치 데이터 대체를 사용하여 데이터 세트의 결측값을 대체된 값으로 대체합니다. 이 옵션을 사용으로 설정하면 데이터에서 결측값을 보간하는 방법을 지정할 수 있습니다. 데이터 대체에 대해 자세히 알아보려면 AutoAI 실험에서 데이터 대체를 참조하십시오.
훈련 및 홀드아웃 데이터 훈련 데이터 세트의 일부 데이터를 예약하여 실험을 테스트하도록 선택하십시오. 또는 별도의 홀드아웃 데이터 파일을 업로드하십시오. 홀드아웃 데이터 파일은 훈련 데이터의 스키마와 일치해야 합니다.

시계열 데이터 구성

시계열 데이터를 구성하기 위해 실험 백테스트 와 관련된 시계열 데이터에 대한 설정을 조정할 수 있습니다. 백테스트는 히스토리 데이터를 사용하여 시계열 모델의 유효성을 검증하는 방법을 제공합니다.

일반적인 기계 학습 실험에서는 데이터의 일부를 무작위로 보류하여 결과 모델의 정확성을 테스트할 수 있습니다. 시계열 모델의 유효성을 검증하려면 훈련 데이터와 테스트 데이터 간의 시간 순서 관계를 유지해야 합니다.

다음 단계는 백테스트 방법을 설명합니다.

  1. 훈련 데이터 길이는 백테스트 수, 간격 길이 및 홀드아웃 크기를 기반으로 판별됩니다. 이러한 매개변수에 대해 자세히 학습하려면 시계열 실험 빌드를 참조하십시오.
  2. 가장 오래된 데이터에서 시작하여 실험은 훈련 데이터를 사용하여 훈련됩니다.
  3. 실험은 첫 번째 유효성 검증 데이터 세트에서 평가됩니다. 갭 길이가 0이 아닌 경우 갭의 모든 데이터를 건너뜁니다.
  4. 훈련 데이터 창은 새 훈련 세트를 구성하기 위해 홀드아웃 크기 및 간격 길이를 늘려 진행됩니다.
  5. 새로운 실험은 이 새 데이터를 사용하여 훈련되고 다음 유효성 검증 데이터 세트를 사용하여 평가됩니다.
  6. 이전의 두 단계는 나머지 역테스트 기간 동안 반복됩니다.

백테스트 구성을 조정하려면 다음을 수행하십시오.

  1. 실험 설정을 여십시오.
  2. 데이터 소스에서 시계열을 클릭하십시오.
  3. (선택사항): 표에 표시된 대로 설정을 조정하십시오.
필드 설명
백테스트 수 백테스트는 날짜/시간 기간에 대한 교차 검증과 유사합니다. 선택적으로 실험에 대한 백테스트 수를 사용자 정의하십시오.
홀드아웃 백테스트를 위한 홀드아웃 세트 및 유효성 검증 세트의 크기입니다. 유효성 검증 길이는 홀드아웃 길이를 변경하여 조정할 수 있습니다.
간격 길이 각 백테스트에 대한 훈련 데이터 세트와 유효성 검증 데이터 세트 간의 시간 지점 수입니다. 이 매개변수 값이 0이 아니면 간격의 시계열 값이 실험을 훈련하거나 현재 백테스트를 평가하는 데 사용되지 않습니다.

데이터 소스 페이지의 실험 설정

구성 설정에 대한 시각화는 백테스팅 플로우를 설명합니다. 그래픽은 대화식이므로 그래픽 또는 구성 필드에서 설정을 조작할 수 있습니다. 예를 들어, 간격 길이를 조정하면 백테스트 수를 늘리지 않고도 데이터의 이전 기간에 대한 모델 유효성 검증 결과를 볼 수 있습니다.

실험 결과 해석

시계열 실험을 실행한 후 결과 파이프라인을 검사하여 실험 세부사항에 대한 인사이트를 얻을 수 있습니다. 지원 기능을 사용하는 파이프라인은 이러한 기능을 사용하지 않는 파이프라인과 구별하기 위해 SUP 개선사항 태그로 표시됩니다. 세부사항을 보려면 다음을 수행하십시오.

  • 시각화의 노드 위로 마우스를 이동하여 생성되는 파이프라인에 대한 세부사항을 보십시오.
  • 훈련 프로세스의 다른 보기를 보려면 진행 맵 보기로 전환하십시오. 프로세스의 각 노드 위로 마우스를 이동하여 세부사항을 볼 수 있습니다.
  • 최종 파이프라인이 완료되고 리더보드에 기록된 후 파이프라인을 클릭하여 성능 세부사항을 볼 수 있습니다.
  • 최상위 수행자로 선택되지 않은 파이프라인에 사용되는 알고리즘을 보려면 버려진 파이프라인 보기 를 클릭하십시오.
  • 실험 코드를 검토할 수 있는 노트북으로 저장하십시오.
  • 특정 파이프라인을 검토할 수 있는 노트북으로 저장하십시오.

훈련 및 홀드아웃 데이터를 사용하여 Jupyter 노트북에서 시계열 실험을 실행하고 모델을 작성하는 방법을 보려면 이 비디오를 시청하십시오.

비디오 면책사항: 이 비디오의 일부 사소한 단계 및 그래픽 요소는 플랫폼과 다를 수 있습니다.

이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.

다음 단계

추가 자원

다음 단계

상위 주제: AutoAI 개요

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기