0 / 0
영어 버전 문서로 돌아가기
연속 기계 학습
마지막 업데이트 날짜: 2024년 10월 04일
연속 기계 학습(SPSS Modeler)

연속 기계 학습은 IBM의 연구와 생물학의 자연 선택에서 영감을 받아 만들었으며 자동 분류자 노드 및 자동 숫자 노드에 사용할 수 있습니다.

모델링에 대한 불편함은 시간에 따라 데이터가 변경되어 모델이 구식이 된다는 점입니다. 일반적으로 이 현상을 모델 드리프트 또는 개념 드리프트라고 합니다. 모델 드리프트를 효과적으로 극복하기 위해 SPSS Modeler는 지속적인 자동 시스템 학습을 제공합니다.

모델 드리프트의 개념 히스토리 데이터를 기반으로 모델을 작성하면 정체될 수 있습니다. 많은 경우에 새 데이터는 항상 오래된 히스토리 데이터에서 캡처할 수 없는 새로운 변화, 새로운 패턴, 새로운 추세 등으로 다가옵니다. IBM은 이 문제를 해결하기 위해 종의 자연 선택이라 불리는 유명한 생물학적 현상에서 영감을 받았습니다. 모델을 하나의 종으로 생각하고 데이터를 자연으로 생각합니다. 자연이 종을 선택하는 것처럼 우리는 데이터에서 모델을 선택하게 해야 합니다. 모델과 종 사이에는 한 가지 큰 차이가 있습니다. 종은 진화할 수 있지만 모델은 만들어진 후에는 정적입니다.

종이 진화하기 위한 두 가지 전제조건이 있습니다. 첫 번째는 유전자 돌연변이이고, 두 번째는 모집단입니다. 이제 모델링 관점에서 첫 번째 전제조건(유전자 돌연변이)을 충족시키려면 기존 모델에 새 데이터 변경사항을 도입해야 합니다. 두 번째 전제조건(모집단)을 충족시키기 위해서는 하나만이 아니라 여러 모델을 사용해야 합니다. 몇 가지 모델의 의미 EMS(Ensemble Model Set)!

다음 그림은 EMS가 진화하는 방법을 설명합니다. 그림의 왼쪽 위 부분은 하이브리드 파티션이 있는 히스토리 데이터를 나타냅니다. 하이브리드 파티션은 풍부한 초기 EMS를 지원합니다. 그림의 오른쪽 상단 부분은 사용 가능한 새 데이터 부분을 나타내며 각 측면에 세로 막대가 있습니다. 왼쪽 세로 막대는 현재 상태를 나타내고, 오른쪽 세로 막대는 모델 드리프트의 위험이 있을 때 상태를 표시합니다. 연속 기계 학습의 각 새로운 주기 마다 모델을 발전시키고 모델 드리프트를 방지하기 위해 두 단계를 수행합니다.

먼저, 기존 교육 데이터를 사용하여 앙상블 모델 세트(EMS)를 구성합니다. 그 다음, 새 데이터 청크를 사용할 수 있게 되면 새 모델이 해당 새 데이터에 대해 빌드되고 EMS에 구성요소 모델로 추가됩니다. EMS의 기존 구성요소 모델 가중치는 새 데이터를 사용하여 다시 평가됩니다. 이러한 재평가의 결과로 더 높은 가중치가 있는 구성요소 모델들이 현재 예측에 선택되고 더 낮은 가중치가 있는 컴포넌트 모델들은 EMS에서 삭제될 수 있습니다. 이 프로세스는 모델 가중치와 모델 인스턴스 모두에 대한 EMS를 새로 고칩니다. 따라서 시간이 경과함에 따라 발생하는 데이터에 대한 불가피한 변경을 유연하고 효율적으로 처리할 수 있습니다.

그림 1. 연속 자동 기계 학습
연속 자동 기계 학습

앙상블 모델 세트(EMS) 는 생성된 자동 모델 너깃이며 자동 모델링 노드와 생성된 자동 모델 너깃 사이에 새로 고침 링크가 있고 이는 이 둘 간의 새로 고침 관계를 정의합니다. 연속 자동 기계 학습을 사용하는 경우, 새 데이터 자산이 자동 모델링 노드에 지속적으로 공급되어 새 구성요소 모델을 생성합니다. 모델 너깃을 대체하는 대신 업데이트합니다.

다음 그림은 연속 기계 학습 시나리오에서 EMS 내부 구조의 예제를 제공합니다. 현재 예측에 대해 상위 세 개의 구성요소 모델만 선택됩니다. 각 구성요소 모델(M1, M2, M3으로 표시)에 대해 두 종류의 가중치가 설정됩니다. 현재 모델 가중치(CMW)는 구성요소 모델이 새 데이터 청크를 사용하여 수행하는 방법을 설명하고, 누적 모델 가중치(AMW)는 최근 데이터 청크에 대한 구성요소 모델의 포괄적인 성능을 설명합니다. AMW는 CMW와 자체 이전 값을 통해 반복적으로 계산되고, 이러한 값 사이의 균형을 맞추기 위한 하이퍼 매개변수 베타가 있습니다. AMW 계산 공식은 지수 이동 평균이라고 합니다.

새 데이터 청크가 사용 가능하게 되면 먼저 SPSS Modeler에서 이를 사용하여 몇 개의 새 구성요소 모델을 빌드합니다. 이 예제 그림에서 모델 4(M4)는 초기 모델 작성 프로세스 중에 계산된 CMW및 AMW를 사용하여 빌드됩니다. 그러면 SPSS Modeler는 새로운 데이터 청크를 사용하여 기존 구성요소 모델(M1, M2, M3)의 측정값을 재평가하고, 재평가 결과를 기반으로 CMW와 AMW를 업데이트합니다. 마지막으로, SPSS Modeler는 CMW 또는 AMW를 기반으로 하는 컴포넌트 모델을 다시 정렬하고 이에 따라 상위 세 개의 구성요소 모델을 선택할 수 있습니다.

이 그림에서 CMW는 정규화된 값(sum = 1) 을 이용하여 설명되고 AMW는 CMW를 기반으로 계산됩니다. SPSS Modeler에서 절대값(선택된 평가 가중 측정값과 동일(예: 정확도))은 단순성을 위해 CMW및 AMW를 나타내도록 선택됩니다.

그림 2. EMS 구조
EMS 구조
각 EMS 컴포넌트 모델에는 두 가지 유형의 가중치가 정의되어 있습니다. 이 두 가지 유형 모두 상위 N개 모델 및 컴포넌트 모델 드롭 아웃을 선택하는 데 사용할 수 있습니다.
  • 현재 모델 가중치(CMW)는 새 데이터 청크에 대한 평가를 통해 계산됩니다(예: 새 데이터 청크에 대한 평가 정확도).
  • 누적 모델 가중치(AMW)는 CMW와 기존 AMW를 결합하여 계산됩니다(예: 지수 가중 이동 평균 (EWMA)).

    AMW 계산을 위한 지수 이동 평균 수식:
    AMW 계산을 위한 지수 이동 평균 수식

SPSS Modeler에서 자동 분류자 노드를 실행하여 모델 너깃을 생성한 후 연속 기계 학습에 사용할 수 있는 모델 옵션은 다음과 같습니다.

  • 모델 새로 고치기 중에 연속 자동 기계 학습 사용. 연속 기계 학습을 사용하려면 이 옵션을 선택하십시오. 연속 자동 모델을 훈련하려면 반드시 일관된 메타데이터(데이터 모델)를 사용해야 합니다. 이 옵션을 선택하면 다른 옵션을 사용할 수 있습니다.
  • 자동 모델 가중치 재평가 사용. 이 옵션은 평가 측정값(예: 정확도)이 모델 새로 고치기 중에 계산되고 업데이트되는지 여부를 제어합니다. 이 옵션을 선택하면 EMS(모델 새로 고치기 중) 이후에 자동 평가 프로세스가 실행됩니다. 일반적으로 데이터의 현재 상태를 반영하기 위해 새 데이터를 사용하여 기존 구성요소 모델을 재평가하는 것이 필요하기 때문입니다. 그 다음, EMS 구성요소 모델들의 가중치들은 재평가 결과에 따라 할당되고 가중치는 구성요소 모델이 최종 앙상블 예측에 기여하는 비율을 결정하는 데 사용됩니다. 이 옵션은 기본적으로 선택됩니다.
    그림 3. 모델 설정
    모델 설정
    그림 4. 플래그 대상
    플래그 대상
    다음은 자동 분류자 노드에 지원되는 CMW및 AMW입니다.
    표 1. 지원되는 CMW 및 AMW
    대상 유형 CMW AMW
    플래그 대상 전체 정확도
    AUC(Area Under Curve)
    누적 정확도
    누적 AUC
    설정 대상 전체 정확도 누적 정확도

    다음 세 가지 옵션은 AMW와 관련이 있으며, 이는 최근 데이터 청크 기간 동안 구성요소 모델의 성능을 평가하는 데 사용됩니다.

  • 모델 가중치 재평가 중에 누적된 요인 사용. 이 옵션을 선택하면 모델 가중치 재평가 중에 AMW 계산이 사용 가능하게 됩니다. AMW는 이전에 나열된 AMW 공식에 정의된 누적 요인 β와 관련하여 최근 데이터 청크 기간 동안 EMS 구성요소 모델의 포괄적인 성능을 나타내며 노드 특성에서 조정할 수 있습니다. 이 옵션을 선택하지 않으면 CMW만 계산됩니다. 이 옵션은 기본적으로 선택됩니다.
  • 모델 새로 고치기 중에 누적된 한계를 기반으로 모델 축소 수행. 모델 새로 고치기 중에 지정된 한계 미만의 AMW 값이 있는 구성요소 모델을 자동 모델 EMS에서 제거하려면 이 옵션을 선택하십시오. 이는 자동 모델 EMS가 너무 많아지는 것을 방지하기 위해 쓸모없는 구성요소 모델을 폐기하는 데 도움이 될 수 있습니다.
    누적된 한계 값 평가는 평가 가중 투표가 앙상블 방법으로 선택될 때 사용되는 가중 측정값과 관련됩니다. 다음을 참조하십시오.
    그림 5. 설정 및 플래그 대상
    설정 및 플래그 대상

    평가 가중치 측정값의 모델 정확도를 선택하면 지정된 한계보다 낮은 누적 정확도가 있는 모델이 삭제됩니다. 평가 가중치 측정값의 AUC(Area Under Curve)를 선택하면 지정된 한계 미만의 누적 AUC가 있는 모델이 삭제됩니다.

    기본적으로 모델 정확도는 자동 분류자 노드의 평가 가중치 측정값에 사용되며 플래그 목표의 경우 선택적 AUC ROC 측정값이 있습니다.

  • 누적 평가 가중치 투표 사용. 현재 스코어링/예측에 AMW를 사용하려면 이 옵션을 선택하십시오. 그렇지 않으면, CMW가 기본값으로 사용됩니다. 앙상블 방법에 대해 평가 가중치 투표가 선택된 경우 이 옵션을 사용할 수 있습니다.

    플래그 대상의 경우 이 옵션을 선택하여 평가 가중치 측정값에 대해 모델 정확도를 선택한 경우 누적 정확도를 AMW로 사용하여 현재 스코어링을 수행합니다. 또는 평가 가중치 측정에 대해 AUC(Area Under Curve)를 선택한 경우 현재 스코어링을 수행하기 위해 누적 AUC를 AMW로 사용합니다. 이 옵션을 선택하지 않고 평가 가중치 측정값의 모델 정확도를 선택하면 전체 정확도가 현재 스코어링을 수행하기 위해 CMW로 사용됩니다. AUC(Area Under Curve)를 선택하면 AUC(Area Under Curve)를 현재 스코어링을 수행하기 위해 CMW로 사용합니다.

    세트 대상의 경우, 이 누적 평가 가중치 투표 사용 옵션을 선택하면 현재 스코어링을 수행하기 위해 누적 정확도가 AMW로 사용됩니다. 그렇지 않으면, 전체 정확도가 현재 스코어링을 수행하기 위해 CMW로 사용됩니다.

연속 자동 기계 학습을 사용하면 자동 모델 너깃은 자동 모델을 다시 빌드하여 항상 진화하는데, 이를 통해 데이터의 현재 상태를 반영하는 가장 업데이트된 버전을 얻을 수 있습니다. SPSS Modeler는 여러 기간 동안 다양한 데이터에 맞춰 속도를 유지하는 현재 가중치에 따라 선택할 EMS의 다양한 상위 N개 구성요소 모델을 사용하는 유연성을 제공합니다.

참고: 자동 숫자 노드는 자동 분류자 노드에서 옵션의 서브세트를 제공하는 훨씬 더 단순한 케이스입니다.

이 예에서, 연속 기계 학습은 통신 산업에서 행동을 예측하고 고객을 보유하는데 사용됩니다.

다음 플로우에서 데이터 자산에는 지난 달(Churn 열)에 남아 있는 고객에 대한 정보를 포함합니다. 매월 새 데이터가 사용 가능하므로 이 시나리오는 연속 기계 학습에 적합합니다. 이 예제에서 1월(Jan) 데이터는 초기 자동 모델을 구성하는 데 사용되고, 2월(Feb) 데이터는 연속 기계 학습을 통해 자동 모델을 향상시키는 데 사용됩니다.

그림 6. 예제 플로우
예제 플로우
플로우의 상위 분기에서, 데이터 자산 노드 다음에 일부 중요하지 않은 필드를 필터링하기 위한 필터 노드가 있습니다. 분기의 끝에 터미널 자동 분류자 모델링 노드가 있습니다. 노드의 전문가 설정에서 교육 프로세스에 사용할 알고리즘을 선택합니다. 이 예제에서는 세 가지 알고리즘(Logistic Regression, Bayesian Network, Neural Network)을 선택합니다. 그런 다음 플로우를 실행하여 자동 모델 너깃을 생성합니다.

자, 이제 자동 모델 너깃의 내부를 살펴보도록 하겠습니다. 여기에는 선택한 세 개의 알고리즘에 대한 세 개의 구성요소 모델이 포함되어 있다는 것을 알 수 있습니다. 각 구성요소 모델에 대해 여러 평가 측정값(예: 정확도 및 AUC(Area Under Curve))가 생성됩니다. 이러한 평가 측정값은 구성요소 모델이 교육 데이터(1월 데이터 세트)에 대해 수행하는 방법을 설명합니다. 현재 앙상블 예측에서 사용할 구성요소 모델을 선택할 수 있습니다.

그림 7. 평가 측정값
평가 측정값

누적 평가 방법도 볼 수 있습니다. 이러한 누적 측정값은 일정 기간 동안의 모델의 종합적인 성능을 알기 위해 구성요소 모델이 최근 데이터 변경을 처리하는 방법을 설명하기 때문에 연속적인 기계 학습에 사용합니다. 이는 초기 자동 모델이기 때문에, 누적된 측정값에 대한 초기값이 관련 현재 측정값과 동일하다는 것을 알 수 있습니다. 기본적으로 평가 측정값은 교육 데이터에 대해 계산되므로 약간의 과적합이 발생할 수 있습니다. 이를 방지하기 위해 자동 분류자 노드는 교차 검증을 통해 보다 안정적인 평가 측정값을 계산하는 빌드 옵션을 제공합니다.

다음으로, 최종 앙상블 예측이 생성되는 방법을 살펴보겠습니다. 자동 모델의 특성을 열면 앙상블 플래그 대상에서 교육 대상 이탈 필드가 예/아니오 플래그 대상입니다. 앙상블 세트 대상에서(두 개 이상의 값을 포함하는 설정 대상 필드의 경우) 앙상블 방법 드롭 다운이 있습니다. 드롭 다운에서 여러 옵션을 사용할 수 있습니다(예를 들어, 과반수 투표는 각 구성요소 모델이 투표할 하나의 티켓을 보유함을 의미하고 신뢰도 가중 투표는 각 구성요소 모델 예측의 신뢰도 필드가 투표 가중치로 사용됨을 의미하며, 이 때 신뢰도가 높으면 최종 앙상블 예측에 더 많은 영향을 미치는 것을 의미함). 마찬가지로 연속 기계 학습에 대한 더 나은 지원을 제공하기 위해 평가 가중치 투표를 사용할 수 있으므로 구성요소 모델의 평가 측정값(예: 모델 정확도 또는 AUC(Area Under Curve))이 투표 가중치로 사용됩니다. 플래그 대상의 경우, 평가 가중 투표가 사용될 때 특정 평가 측정값을 투표 가중치로 선택하는 옵션도 있습니다. 설정 대상의 경우 현재 정확도만 지원됩니다.

그림 8. 설정 및 플래그 대상
설정 및 플래그 대상

앙상블 공통 설정에서 연속 기계 학습을 설정합니다. 그런 다음 2월 데이터를 사용하여 발생하는 내용을 알 수 있습니다. 두 개의 다른 알고리즘을 선택하여 기존 구성요소 모델 알고리즘을 구별할 수 있습니다. 그런 다음 플로우를 다시 빌드하고 자동 모델의 컨텐츠를 보고 나면 두 개의 새 구성요소 모델(C5 및 C&RT)이 추가된 것을 확인할 수 있습니다. 또한 기존의 구성요소 모델에 대한 평가 측정값이 다시 계산되었음을 알 수 있습니다. CMW 측정값과 AMW 측정값이 모두 이전과 다릅니다. 이제 원본 자동 모델의 해당 측정값과 비교할 수 있습니다.

그림 9. 평가 측정값
평가 측정값

다음 단계 향상된 자동 모델을 사용하면 우선순위가 지정된 평가 측정값을 선택하고 해당 측정값별로 정렬된 상위 N개 구성 요소 모델을 가져올 수 있습니다. 그런 다음, 상위 N개 구성요소 모델을 사용하여 수신 예측 분석 요청에 대한 최종 앙상블 예측에 참여할 수 있습니다. 앙상블 방법에 대해 평가 가중 투표가 선택된 경우, 앙상블 공통 설정에서 누적 평가 가중치 투표 사용 옵션을 선택하여 누적 측정값을 투표 가중치로 사용할 수 있습니다. 선택 취소하는 경우, 기본적으로 평가 가중 투표에서 CMW 측정값이 사용됩니다.

자동 모델은 연속 기계 학습을 통해 새로운 데이터 청크를 지속적으로 다시 빌드하여 항상 진화하면서 모델이 데이터의 현재 상태를 반영하는 최신 버전인지 확인합니다. 그러면 현재 또는 누적 평가 측정값에 따라 EMS 내서 다른 상위 N개 구성요소 모델을 선택할 수 있는 유연성이 생깁니다.

정기적으로, 편리하게 주기적으로 Watson Machine Learning에 가장 최신의 자동 모델을 배치하도록 선택할 수 있습니다.

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기