0 / 0
영어 버전 문서로 돌아가기
C5.0 노드
마지막 업데이트 날짜: 2024년 10월 04일
C5.0 노드(SPSS Modeler)

이 노드는 C5.0 알고리즘을 사용하여 의사결정 트리 또는 규칙 세트를 작성합니다. C5.0 모델은 최대 정보 이득을 제공하는 필드를 기준으로 하여 표본을 분할하는 방식으로 작동합니다. 첫 번째 분할을 통해 정의된 각 하위 샘플이 일반적으로 다른 필드를 기준으로 하여 다시 분할되고, 하위 샘플을 더 이상 분할할 수 없게 될 때까지 프로세스가 반복됩니다. 마지막으로 최저 수준의 분할을 재검토해서 모델 값에 상당히 기여하지 않는 분할은 제거 또는 가지치기됩니다.

참고: C5.0 노드는 범주형 목표만 예측할 수 있습니다. 범주형(명목 또는 순서) 필드가 있는 데이터를 분석하는 경우 노드는 범주를 그룹화할 가능성이 있습니다.

C5.0는 두 종류의 모델을 생성할 수 있습니다. 의사결정 트리는 알고리즘이 찾는 분할을 직선적으로 설명합니다. 각 터미널(또는 "리프") 노드는 훈련 데이터의 특정 서브세트를 설명하고 훈련 데이터의 각 케이스는 트리의 정확히 한 터미널 노드에 속합니다. 즉, 의사결정 트리에 표시된 특정 데이터 레코드에 정확히 하나의 예측이 가능합니다.

이와 반대로, 규칙 세트는 개별 레코드를 예측하려 시도하는 규칙 세트입니다. 규칙 세트는 의사결정 트리에서 파생되며 어느 정도는 의사결정 트리에 있는 정보의 단순화된 또는 엄선된 버전을 나타냅니다. 규칙 세트는 종종 전체 의사결정 트리(단, 보다 덜 복잡한 모델 포함)에서 대부분의 중요한 정보를 보유할 수 있습니다. 규칙 세트는 작동 방식으로 인해 의사결정 트리와 특성이 동일하지 않습니다. 가장 중요한 차이는 규칙 세트의 경우 특정 레코드에 둘 이상의 규칙이 적용되거나 규칙이 전혀 적용되지 않을 수도 있다는 점입니다. 여러 규칙이 적용되는 경우 각 규칙은 규칙과 연관된 신뢰도를 기준으로 하여 가중된 "투표"를 얻고, 논의되는 레코드에 적용되는 모든 규칙의 가중된 투표를 조합해서 최종 예측이 결정됩니다. 적용된 규칙이 없으면 기본 예측이 레코드에 지정됩니다.

예. 한 의료 연구원은 모두 동일한 질병을 앓고 있는 일련의 환자에 대한 데이터를 수집해왔습니다. 치료 과정 중에 각 환자는 다섯 가지 약물 치료 중 하나에 반응했습니다. C5.0 모델을 다른 노드와 함께 사용하여 동일한 질병을 앓는 미래의 환자에게 어느 약물이 적합한지 파악하는 데 도움을 줄 수 있습니다.

요구사항. C5.0 모델을 훈련하려면 하나의 범주형 (예: 명목 또는 순서) Target 필드와 임의 유형의 하나 이상의 Input 필드가 있어야 합니다. Both 또는 None 로 설정된 필드는 무시됩니다. 모델에 사용된 필드는 유형이 완전히 인스턴스화되어 있어야 합니다. 가중 필드도 지정할 수 있습니다.

강도. C5.0 모델은 데이터 누락이나 많은 수의 입력 필드와 같은 문제가 발생할 때 상당히 강건합니다. 일반적으로 추정하기 위해 긴 훈련 시간이 필요하지 않습니다. 또한 C5.0 모델은 모델에서 파생된 규칙의 해석이 매우 직설적이어서 다른 모델 유형보다 이해하기 쉽습니다. C5.0은 분류 정확도를 높이는 강력한 부스팅 방법도 제공합니다.

팁: C5.0 모델 작성 속도는 병렬 처리를 사용하는 것이 좋습니다.
참고: 플로우를 처음 작성할 때 사용할 런타임을 선택합니다. 기본적으로 플로우에는 IBM SPSS Modeler 런타임이 사용됩니다. SPSS 알고리즘 대신 원시 Spark 알고리즘을 사용하려면 Spark 런타임을 선택하십시오. 이 노드의 특성은 선택한 런타임 옵션에 따라 달라집니다.
일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기