튜토리얼을 사용해 보세요
이 학습서에서는 다음 태스크를 완료합니다.
모델러 흐름 및 데이터 세트 샘플
이 튜토리얼에서는 샘플 프로젝트의 대역폭 사용량 예측 플로우를 사용합니다. 시계열 모델링을 사용하여 여러 지역 시장에 대한 향후 3개월 동안의 예측을 생성합니다. 사용된 데이터 파일은 broadband_1.csv. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.
SPSS® Modeler 한 번의 작업으로 여러 시계열 모델을 생성할 수 있습니다. broadband_1.csv 데이터 파일에는 85개 지역 시장별 월별 사용량 데이터가 포함되어 있습니다. 이 예제에서는 처음 5개 시리즈만 사용되며, 이 5개 시리즈 각각에 대해 별도의 모델이 생성되어 총 5개가 됩니다.
또한 파일에는 각 레코드의 월 및 연도를 표시하는 날짜 필드가 포함됩니다. 이 필드는 레코드에 레이블을 지정하는 데 사용됩니다. 날짜 필드는 SPSS Modeler 문자열로 읽히지만, 필러 노드를 사용하여 저장소 유형을 숫자 날짜 형식으로 변환하여 SPSS Modeler 필드를 사용해야 합니다.
시계열 노드를 사용하려면 각 시계열이 각 간격에 대한 행이 있는 별도의 열에 있어야 합니다. SPSS Modeler 필요한 경우 이 형식에 맞게 데이터를 변환하는 방법을 제공합니다.
작업 1: 샘플 프로젝트 열기
샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 아직 샘플 프로젝트가 없는 경우 튜토리얼 주제를 참조하여 샘플 프로젝트를 만드세요. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:
- ' watsonx'의 탐색 메뉴 ' '에서 프로젝트 > 모든 프로젝트 보기를 선택합니다.
- SPSS Modeler 프로젝트를 클릭합니다.
- 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.
진행 상황 확인
다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.
작업 2: 데이터 자산 및 필터 노드 살펴보기
대역폭 사용률 예측 모델러 흐름에는 여러 노드가 포함됩니다. 데이터 자산 및 필터 노드를 검토하려면 다음 단계를 따르세요:
- 자산 탭에서 대역폭 사용률 예측 모델러 플로우를 열고 캔버스가 로드될 때까지 기다립니다.
- broadband_1.csv 노드를 더블클릭합니다. 이 노드는 프로젝트의 broadband_1.csv 파일을 가리키는 데이터 에셋 노드입니다.
- 파일 형식 속성을 검토합니다.
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.
- 필터 노드를 두 번 클릭하십시오. 이 노드는 '
Market_6
' 및 'Market_85
' 필드와 'MONTH_
' 및 'YEAR_
' 필드를 필터링합니다. - 선택 사항입니다: 데이터 미리 보기를 클릭하여 필터링된 데이터 집합을 확인합니다.
진행 상황 확인
다음 이미지는 필터 노드를 보여줍니다. 이제 데이터를 시각화할 준비가 되었습니다.
작업 3: 데이터 시각화
모델을 구축하기 전에 항상 데이터를 시각화하는 것이 좋습니다. 데이터에 계절 변동이 있습니까? SPSS Modeler 각 계열에 가장 적합한 계절 또는 비계절 모델을 자동으로 찾을 수 있지만, 데이터에 계절성이 없는 경우 검색을 비계절 모델로 제한하면 더 빠른 결과를 얻을 수 있는 경우가 많습니다. 각 지역 시장에 대한 데이터를 조사하지 않고도 5개 시장 모두에 대한 총 구독자 수를 그래프로 표시하여 계절적 요인의 유무를 대략적으로 파악할 수 있습니다. 데이터를 시각화하려면 다음 단계를 따르세요:
- Market_1 Market_2 Market_3 Market_4 Market_5] 노드를 더블클릭합니다. 다음 이미지는 이 시간 플롯 노드의 속성을 보여줍니다.
- 시리즈 목록에 '
Total
' 필드를 추가하여 총 구독 데이터를 그래프로 표시합니다.- 열 추가를 클릭합니다.
- 총계 필드를 선택합니다.
- '
Market_
'로 시작하는 다른 모든 필드를 지웁니다. - 확인을 클릭하십시오.
- 별도의 패널에 표시 시리즈 및 정규화 옵션의 선택을 취소합니다.
- 저장 을 클릭하십시오.
- 시간 플롯 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
- 출력 및 모델 창에서 [합계] 라는 이름의 출력 결과를 클릭하여 그래프를 확인합니다. 이 시리즈는 계절적 변화 없이 완만한 상승 추세를 보입니다. 계절성이 있는 개별 시리즈가 있을 수 있지만 일반적으로 계절성은 데이터의 두드러진 특징은 아닌 것 같습니다.
- 모든 시장에 대한 데이터를 그래프로 표시합니다. 시즌 모델을 제외하기 전에 각 시리즈를 살펴보세요. 그런 다음 계절성을 나타내는 시리즈를 분리하여 별도로 모델링할 수 있습니다.
- 총계] 노드를 두 번 클릭합니다.
- 합계 필드를 선택하고 삭제 아이콘을 클릭합니다.
- 열 추가를 클릭합니다.
- '
Market_
'로 시작하는 모든 필드를 선택합니다. - 확인을 클릭하십시오.
- 별도의 패널에 표시 시리즈 및 정규화 옵션의 선택을 취소합니다.
- 저장 을 클릭하십시오.
- 시간 플롯 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
- 출력 및 모델 창에서 [Market_1 Market_2 Market_3 Market_4 Market_5 ]라는 이름의 출력 결과를 클릭하여 그래프를 확인합니다. 각 시장을 조사한 결과 각 케이스에서 안정된 상승세가 발견되었습니다. 일부 시장은 다른 시장보다 조금 더 불규칙적이지만, 결과에는 계절적 요인에 대한 증거가 나타나지 않습니다.
진행 상황 확인
다음 이미지는 플로우를 보여줍니다. 이제 날짜를 정의할 준비가 되었습니다.
작업 4: 날짜 정의
필러 노드는 필드 값을 바꾸고 저장소를 변경하는 데 사용됩니다. 지정된 CLEM 조건(예: @BLANK(FIELD)
)을 기준으로 값을 대체할 수 있습니다. 또는 모든 공백 또는 널값을 특정 값으로 대체할 것을 선택할 수 있습니다. 필러 노드는 종종 유형 노드와 함께 누락된 값을 대체하는 데 사용됩니다. ' DATE_
' 필드의 저장 유형을 날짜 형식으로 설정하려면 다음 단계를 따르세요:
- 필러 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 필드 채우기 섹션에 '
DATE_
' 필드가 나열되어 있는 것을 확인합니다. 이 섹션에는 값을 검사하고 대체하는 데이터 집합의 필드가 포함되어 있습니다. - 바꾸기 옵션이 항상으로 설정되어 있는지 확인합니다. 기본 동작은 조건 및 바꾸기 표현식을 사용하여 조건에 따라 값을 대체하는 것입니다.
- 값으로 바꾸기가 '
to_date(DATE_)
'로 설정되어 있는지 확인합니다. 바꾸기 옵션이 항상으로 설정되어 있으므로 표현식으로 바꾸기가 필요합니다. 이 표현식은 'DATE_
' 필드의 저장 유형을 날짜 형식으로 변경합니다. - 데이터 미리 보기를 클릭하여 완성된 '
DATE_
' 필드를 확인합니다. - 저장 을 클릭하십시오.
진행 상황 확인
다음 이미지는 필러 노드를 보여줍니다. 이제 대상을 정의할 준비가 되었습니다.
작업 5: 대상 정의
유형 노드에서 필드 속성을 지정할 수 있습니다. 다음 단계에 따라 유형 노드에서 대상을 정의합니다:
- 유형 노드를 두 번 클릭하여 해당 특성을 보십시오.
- 값 읽기를 클릭하여 데이터 소스에서 값을 읽고 필드 측정 유형을 설정합니다.
역할은 필드가 머신러닝 프로세스의 입력 (예측 필드) 또는 대상 (예측 필드)인지 여부를 모델링 노드에 알려줍니다. 교육, 테스트 및 유효성 검사를 위해 레코드를 별도의 샘플로 분할하는 데 사용되는 필드를 나타내는 파티션과 함께 둘 다 및 없음도 사용 가능한 역할입니다. Split 값은 필드의 가능한 각 값에 대해 별도의 모델을 만들도록 지정합니다. - '
DATE_
' 필드에 역할을 없음으로 설정합니다. - 다른 모든 필드('
Market_n
필드와 'Total
' 필드)에 대해 역할을 Target으로 설정합니다. - 저장 을 클릭하십시오.
진행 상황 확인
다음 이미지는 Type 노드를 보여줍니다. 이제 시간 간격을 설정할 준비가 되었습니다.
작업 6: 시간 간격 설정
시계열 노드에서 적절한 시간 간격으로 날짜/시간 필드를 사용하는 관측값을 정의할 수 있습니다. 시계열 노드에서 시간 간격을 설정하려면 다음 단계를 따르세요:
- 시계열 (6개 필드) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 관찰 및 시간 간격 섹션을 펼칩니다. 다음 옵션을 사용할 수 있습니다.
- 날짜/시간 필드로 지정된 관찰: 날짜, 시간 또는 타임스탬프 필드로 관찰을 정의하도록 지정할 수 있습니다. 관측값을 정의하는 필드 외에, 관측값을 설명하는 적절한 시간 구간을 선택하십시오. 지정된 시간 구간에 따라, 관측값(증분) 사이의 구간이나 주당 일 수와 같은 다른 설정을 지정할 수도 있습니다.
- 기간 또는 주기로 정의된 관측값입니다: 관측값은 주기 또는 반복되는 주기 주기를 나타내는 하나 이상의 정수 필드로 정의되며, 최대 임의의 주기 수준까지 정의할 수 있습니다. 이 구조를 사용하면 표준 시간 간격 중 하나에 맞지 않는 일련의 관찰을 설명할 수 있습니다. 예를 들어, 10개월만 있는 회계연도는 연도를 나타내는 순환 필드와, 월을 나타내는 주기 필드로 설명할 수 있습니다. 여기서 하나의 주기 길이는 10입니다.
- 시간/날짜 필드에서 '
DATE_
'이 선택되어 있는지 확인합니다. - 시간 간격 필드에서 '
Months
'이 선택되어 있는지 확인합니다.
- 시간/날짜 필드에서 '
- 모델 옵션 섹션을 펼칩니다.
- 레코드를 향후로 확장 필드를 선택합니다. 이 필드에서는 예상 기간이 끝난 후 예측할 간격의 수를 설정합니다. 이 경우 시간 간격은 분석의 시간 간격입니다. 예측을 요청하면 대상이 아닌 모든 입력 계열에 대해 자동 회귀 모델이 자동으로 구축됩니다. 그런 다음, 이 모델을 사용하여 예측 기간에 해당 입력 계열의 값을 생성합니다.
- 시간 간격의 수는 '
3
'을 입력합니다.
진행 상황 확인
다음 이미지는 Type 노드를 보여줍니다. 이제 모델을 구축할 준비가 되었습니다.
작업 7: 모델 구축
시계열 노드를 사용하면 시계열에 대해 지수 평활화, 단변량 ARIMA(자동 회귀 통합 이동 평균) 또는 다변량 ARIMA(또는 전이 함수) 모델을 추정 및 구축하고, 시계열 데이터를 기반으로 예측을 생성할 수 있습니다.
작업 7a: 모델 옵션 지정
시계열 노드에서 모델 옵션을 지정하려면 다음 단계를 따르세요:
- 시계열 (6개 필드) 노드 속성을 보고 타깃 및 후보 입력을 지정합니다.
- 타겟 테이블에 5개의 시장 필드와 '
Total
' 필드가 모두 포함되어 있는지 확인합니다. - 후보 입력 테이블에 5개의 시장 필드가 모두 포함되어 있는지 확인합니다.
- 타겟 테이블에 5개의 시장 필드와 '
- 빌드 옵션-일반 섹션을 펼칩니다. 다음 옵션을 사용할 수 있습니다.
- 지수평활은 향후 값을 예측하기 위해 이전 계열 관측의 가중된 값을 사용하는 시계열 분석 방법입니다. 이와 같이 지수평활은 데이터의 이론적 이해에 기반하지 않습니다. 새 데이터가 들어오면 해당 예측을 조정하여 한 번에 하나의 포인트를 예측합니다. 이 방법은 추세, 계절성 또는 모두를 나타내는 계열의 시계열 분석에 유용합니다. 추세 및 계절성을 다르게 처리하는 다양한 지수평활 모델 중에서 선택할 수 있습니다.
- ARIMA 모델은 지수평활 모델을 수행하는 모델링 추세 및 계절 구성요소에 대해 보다 정교한 방법을 제공하고, 특히 모델의 독립 변수(예측자)의 추가된 혜택을 누릴 수 있습니다. 이 접근 방식에는 차이의 정도와 함께 자동 회귀 및 이동 평균 주문을 명시적으로 지정하는 것이 포함됩니다. 예측자를 포함하고 이 모든 항목에 대해 전이 함수를 정의하고, 이상치 또는 명시적 이상치 세트의 자동 발견을 지정할 수 있습니다.
- 전문가 모델러는 하나 이상의 대상 변수에 대해 가장 적합한 ARIMA 또는 지수 평활화 모델을 자동으로 식별하고 추정하므로 시행착오를 통해 적절한 모델을 찾을 필요가 없습니다. 의심되는 경우 자동 Modeler 옵션을 사용하십시오.
- 전문가 모델러 방법이 선택되었는지 확인합니다. 이 방법을 사용하면 전문가 모델러가 각 시계열에 사용할 가장 적합한 모델을 결정할 수 있습니다.
- 모델 유형 필드에서 모든 모델이 선택되어 있는지 확인합니다. 이 옵션은 ARIMA 및 지수 평활화 모델을 모두 고려합니다.
- 전문가 모델이 계절 모드를 고려합니다 필드가 선택되어 있는지 확인합니다. 이 옵션을 선택하면 자동 Modeler는 계절 및 비계절 모델을 모두 고려합니다.
다음 이미지는 빌드 옵션 - 일반 설정을 보여줍니다. - 저장 을 클릭하십시오.
- 시계열 (6개 필드) 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
작업 7b: 모델 출력 보기
모델 출력을 표 형식으로 보려면 다음 단계를 따르세요:
- 모델 너겟에 연결된 테이블 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
- 출력 및 모델 창에서 테이블이라는 이름의 출력 결과를 클릭하여 테이블 출력을 확인합니다.
원본 데이터의 끝에 추가된 세 개의 새 행이 눈에 띕니다. 이 행은 예측 기간(이 경우 2004년 1월부터 3월까지)에 대한 행입니다.
여러 개의 새 열이 표시됩니다. 시계열 노드에 '
$TS-
' 열이 추가되었습니다. 이 열은 각 행(예: 시계열 데이터의 각 행)에 대해 다음을 표시합니다.표 1. 시계열 mm모델에서 생성된 열 컬럼 설명 tS-콜명 원본 데이터의 각 열에 대해 생성된 모델 데이터입니다. tSLCI-콜네임 생성된 모델 데이터의 각 열에 대한 하한 신뢰구간 값입니다. tSUCI-콜네임 생성된 모델 데이터의 각 열에 대한 상한 신뢰구간 값입니다. $TS-Total 이 행에서 $TS-colname 값의 총계. $TSLCI-Total 이 행의 $TSLCI-colname 값에 대한 총계입니다. $TSUCI-Total 이 행의 $TSUCI-colname 값에 대한 총계입니다. 예측 작업에서 가장 중요한 열은
$TS-Market_n
,$TSLCI-Market_n
과$TSUCI-Market_n
열입니다. 특히 마지막 세 행에 있는 이러한 열에는 각 현지 시장에 대한 사용자 등록 예측 데이터 및 신뢰구간이 포함됩니다.
진행 상황 확인
다음 이미지는 출력 테이블을 보여줍니다. 이제 모델을 검토할 준비가 되었습니다.
작업 8: 모델 검토
이제 모델 정보와 예측 결과를 검토할 준비가 되었습니다.
작업 8a: 모델 정보 보기
모델 정보를 보려면 다음 단계를 따르세요:
- 시계열 모델 너겟 위로 마우스를 가져간 후 오버플로 메뉴 ' '을 클릭합니다.
- 대상 열에서 Market_2 클릭합니다.
- 모델 정보를 클릭합니다. 예측변수 수 행은 각 대상의 예측변수로 사용된 필드 수를 표시합니다.
모델 정보 테이블의 다른 행은 각 모델에 적합한 다양한 적합도 측정값을 표시합니다. 정적 R-제곱은 모델이 기준 모델보다 나은 부분을 측정합니다. 최종 모델이 ARIMA(p,d,q)(P,D,Q)인 경우 기준 모델은 ARIMA(0,d,0)(0,D,0)입니다. 최종 모델이 Exponential Smoothing 모델인 경우, d는 Brown및 Holt 모델의 경우는 2, 다른 모델의 경우는 1이고, 계절 길이가 1보다 큰 경우 D는 1이고, 그렇지 않으면 D는 0입니다. 음의 고정 R-제곱은 고려 중인 모델이 기준 모델보다 더 나쁘다는 것을 의미합니다. 고정 R-제곱이 0이면 모델이 기준 모델과 같거나 더 나쁘다는 의미이고, 고정 R-제곱이 양수이면 모델이 기준 모델보다 더 좋다는 의미입니다.
통계 및 df 행과 매개변수 추정의 중요도는 Ljung-Box 통계와 관련되며 모델의 잔차 오차의 임의성 테스트입니다. 오류가 무작위로 발생하면 모델이 더 좋아질 수 있습니다. 통계는 융 박스 통계 자체이며, df (자유도)는 특정 대상을 추정할 때 변경할 수 있는 모델 파라미터의 수를 나타냅니다.
중요도는 Ljung-Box 통계의 중요도 값을 제공하여 모델이 올바르게 지정되었는지 여부에 대한 다른 표시를 제공합니다. 중요도 값이 0.05 미만이면 잔차 오차가 임의가 아님을 의미합니다. 즉, 모델에 의해 고려되지 않은 관측된 시리즈 내의 구조가 있음을 의미합니다.
고정 R-제곱 및 유의도 값을 모두 고려하면 전문가 모델러가 '
Market_3
' 및 'Market_4
'에 대해 선택한 모델이 허용됩니다. 'Market_1
, 'Market_2
' , 'Market_5
'의 유의도 값이 모두 0.05 미만이므로 이러한 시장에 더 적합한 모델을 실험해 볼 필요가 있음을 나타냅니다.디스플레이에는 몇 가지 적합도 측정값이 표시됩니다. R-제곱 값은 모델이 설명할 수 있는 시계열의 총 변동에 대한 추정값을 제공합니다. 이 통계의 최대값은 1.0 이 점에서는 모델에 문제가 없습니다.
RMSE는 평균제곱근 오차로, 계열의 실제 값이 모델에서 예측한 값과 얼마나 다른지를 측정하며 계열 자체에 사용된 단위와 동일한 단위로 표시됩니다. 이 오류는 오류의 측정값이므로 이 값을 가능한 한 낮게 설정하는 것이 좋습니다. 언뜻 보기에 '
Market_2
'과 'Market_3
'의 모델은 지금까지 본 통계에 따르면 여전히 수용 가능하지만 다른 세 시장의 모델에 비해 성공률이 낮습니다.이러한 추가 적합도 측정값에는 평균 절대 퍼센트 오차(MAPE) 및 이의 최대값(최대 절대 퍼센트 오차(MAXAPE))이 포함됩니다. 절대 퍼센트 오차는 대상 계열이 모델 예측 레벨에서 얼마나 달라지는지에 대한 측정값이며 퍼센트 값으로 표시됩니다. 모든 모델에 대한 평균 및 최대를 검토하여 예측의 불확실성을 확인할 수 있습니다.
MAPE 값은 모든 모델이 평균 1% 내외의 낮은 불확실성을 나타내는 것으로 나타났습니다. MAXAPE 값은 최대 절대 백분율 오차를 표시하며 예측에 대한 최악의 시나리오를 상상하는 데 유용합니다. 대부분의 모델에서 가장 큰 오차 범위는 약 1.8 3.7 다시 낮은 수치이며, '
Market_4
'만이 7%에 가까운 높은 수치를 보였습니다.MAE(평균 절대 오차) 값은 예측 오차의 절대값 평균을 표시합니다. 이 값은 RMSE 값과 마찬가지로 시리즈 자체에 사용된 단위와 동일한 단위로 표시됩니다. MAXAE는 동일한 단위에서 예측 오차가 가장 큰 예측을 표시하며 예측에 대한 최악의 시나리오를 나타냅니다.
이러한 절대값은 흥미롭지만 대상 계열이 다양한 크기의 시장에 대한 등록자 수를 나타내므로 이 경우에 백분율 오차(MAPE 및 MAXAPE)의 값이 유용합니다.
MAPE 및 MAXAPE 값이 모델에 허용 가능한 불확실성의 양을 표시합니까? 매우 낮습니다. 이러한 상황에서는 문제마다 허용 가능한 리스크가 달라지기 때문에 비즈니스 감각이 중요합니다. 적합도 통계가 허용 가능한 범위 내에 있다고 가정하고 잔여 오차를 살펴보기 위해 앞으로 이동합니다.
모델 잔차에 대한 자기상관 함수(ACF) 및 부분 자기상관 함수(PACF)의 값을 조사하면 단순히 적합도 통계를 보는 것보다 모델에 대한 더 많은 양적 통찰을 제공합니다.
잘 지정된 시계열 모델은 계절성, 추세, 주기적 및 기타 중요한 요소를 포함한 모든 비임의적 변동을 포착합니다. 이 케이스에서는 시간 경과에 따라 어떠한 오류도 자신과 상관관계가 있어서는 안됩니다. 즉, 자기상관이 없어야 합니다. 자동 상관관계 함수 중 하나에서 유의미한 구조가 나타나면 기본 모델이 불완전하다는 것을 의미할 수 있습니다.
- Market_2 창을 닫습니다.
- 모델 정보를 클릭합니다. 예측변수 수 행은 각 대상의 예측변수로 사용된 필드 수를 표시합니다.
- Market_4 모델을 클릭합니다.
- 상관도를 클릭하여 모델의 잔여 오류에 대한 자동 상관 함수(ACF) 및 부분 자동 상관 함수(PACF)의 값을 표시합니다.
이 플롯에서는 오류 변수 지연의 원래 값( 빌드 옵션 - 출력 아래)을 기본값인 24개 기간까지 설정하고 원래 값과 비교하여 시간에 따른 상관 관계를 확인합니다. ACF 및 PACF의 모든 지연을 나타내는 막대가 음영 처리된 영역 내에 있는 것이 이상적입니다. 그러나 실제로는 음영 영역 바깥으로 확장되는 약간의 지연이 있을 수 있습니다. 예를 들어 계산 시간을 절약하기 위해 모델에 일부 더 큰 지연을 포함하려고 할 때 이러한 상황이 발생할 수 있습니다. 일부 시차는 미미하며 모델에서 제거됩니다. 모델을 더 개선하고 이러한 시차의 중복 여부에 상관하지 않으려는 경우, 이러한 도표는 어떠한 지연이 잠재적 예측변수가 되는지에 대해 사용자에게 유용한 정보를 제공합니다.
이 상황이 발생하면 아래쪽(PACF) 플롯을 확인하여 구조가 확인되었는지 확인해야 합니다. PACF 도표는 중간 시점에서 계열 값을 제어한 후 상관관계를 찾습니다.
'
Market_4
'의 값은 모두 음영 처리된 영역 내에 있으므로 계속 진행하여 다른 마켓의 값을 확인할 수 있습니다. - Market_4 창을 닫습니다.
- 상관도를 클릭하여 모델의 잔여 오류에 대한 자동 상관 함수(ACF) 및 부분 자동 상관 함수(PACF)의 값을 표시합니다.
- 기타 각 시장 및 총계에 대해 Correlogram을 여십시오.
다른 시장의 값은 모두 음영 처리된 영역 밖에 있는 값으로, 앞서 유의도 값에서 의심했던 것을 확인시켜 줍니다. 언젠가는 해당 시장에 대해 몇 가지 다른 모델을 실험하여 더 나은 결과를 얻을 수 있는지 확인해야 하지만, 이 예제의 나머지 부분에서는 '
Market_4
모델에서 배울 수 있는 다른 사항에 집중합니다. - 모델 창을 닫아 흐름 캔버스로 돌아갑니다.
작업 8b: 예측 시각화
예측을 시각화하려면 다음 단계를 따르세요:
실제와 예측을 비교한 플롯
- 시계열 모델 너겟에 연결된 시간 플롯 노드를 두 번 클릭합니다.
- 별도의 패널에 표시 시리즈 옵션의 선택을 취소합니다.
- 시리즈 목록에서 '
Market_4
' 및 '$TS-Market_4
' 필드를 제외한 모든 필드를 삭제합니다. - 저장 을 클릭하십시오.
- 시간 플롯Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4] 노드 위에 커서를 올리고 실행 아이콘 ' 을 클릭합니다.
- 출력 및 모델 창에서 [Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4] 라는 이름의 출력 결과를 클릭하여 그래프를 확인합니다. 예측(
$TS-Market_4
) 행이 실제 데이터의 끝을 지나서 확장되는 방식을 주목하십시오. 이제 이 시장에서 다음 3개월 동안의 예상 수요에 대한 예측을 갖게 되었습니다. 전체 시계열에 대한 실제 데이터와 예측 데이터의 선이 그래프에서 매우 가깝게 나타나며, 이는 이 모델이 이 특정 시계열에 대해 신뢰할 수 있음을 나타냅니다.
신뢰 구간 플롯
- 시간 플롯 [Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4] 노드를 더블클릭합니다. 이 특정 시장에 대한 신뢰할 수 있는 모델을 갖게 되었으나 예측에 어떠한 오차 범위가 있습니까? 신뢰 구간을 확인하여 오차 범위를 확인할 수 있습니다.
- 시리즈 섹션에서 '
Market_4
' 및 '$TS-Market_4
' 필드를 삭제합니다. - 열 추가를 클릭합니다.
- '
$TSLCI-Market_4
' 및 '$TSUCI-Market_4
' 필드를 선택합니다. - 확인을 클릭하십시오.
- '
- 저장 을 클릭하십시오.
- 시간 플롯 [Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4] 노드 위에 커서를 올리고 실행 아이콘 ' 을 클릭합니다.
- 출력 및 모델 창에서 [Market_4 $TS-Market_4 $TSLCI-Market_4 $TSUCI-Market_4] 라는 이름의 출력 결과를 클릭하여 그래프를 확인합니다. 이제 이전과 동일한 그래프가 표시되지만 신뢰 구간의 상한(
$TSUCI
)과 하한($TSLCI
')이 추가되었습니다. 더 먼 미래를 예측함에 따라 불확실성이 증가함이 표시되면서 신뢰구간의 경계가 예측 기간에 대해 어떻게 분기되는지 알 수 있을 것입니다. 그러나 각 기간이 경과할 때마다 예측의 근거가 되는 한 달 분량의 실제 사용량 데이터가 추가로 확보됩니다(이 경우). 실제 시나리오에서는 새 데이터를 흐름에 읽어들여 신뢰할 수 있다고 판단되면 모델을 다시 적용할 수 있습니다. - 그래프 창을 닫습니다.
진행 상황 확인
다음 이미지는 완성된 플로우를 보여줍니다.
요약
이 예는 전문가 모델러를 사용하여 여러 시계열에 대한 예측을 생성하는 방법을 보여 줍니다. 실제 시나리오에서는 이제 비표준 시계열 데이터를 시계열 노드에 입력하기에 적합한 형식으로 변환할 수 있습니다.
다음 단계
이제 다른 SPSS Modeler 튜토리얼을 사용해 볼 준비가 되었습니다.