이 튜토리얼에서는 입력 데이터 문자열 길이를 줄여야 하는 경우에 대한 예를 제공합니다. 이항 로지스틱 회귀분석 및 이항 로지스틱 회귀분석 모델을 포함하는 자동 분류자 모델의 경우, 문자열 필드가 최대 여덟 자로 제한됩니다. 문자열이 8자를 초과하는 경우 재분류 노드를 사용하여 문자열을 재코딩할 수 있습니다.
이 예제에서는 흐름의 일부에 초점을 맞춰 지나치게 긴 문자열에서 발생할 수 있는 오류 유형을 보여주고, 재분류 노드를 사용하여 문자열 세부 정보를 허용 가능한 길이로 변경하는 방법을 설명합니다. 이 예에서는 이항 로지스틱 회 귀 노드를 사용했지만 자동 분류기 노드를 사용하여 이항 로지스틱 회귀 모델을 생성할 수도 있습니다.
튜토리얼을 사용해 보세요
이 학습서에서는 다음 태스크를 완료합니다.
모델러 흐름 및 데이터 세트 샘플
이 튜토리얼에서는 샘플 프로젝트의 입력 데이터 문자열 길이 줄이기 플로우를 사용합니다. 사용된 데이터 파일은 drug_long_name.csv. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.
작업 1: 샘플 프로젝트 열기
샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 아직 샘플 프로젝트가 없는 경우 튜토리얼 주제를 참조하여 샘플 프로젝트를 만드세요. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:
- ' watsonx'의 탐색 메뉴 ' '에서 프로젝트 > 모든 프로젝트 보기를 선택합니다.
- SPSS Modeler 프로젝트를 클릭합니다.
- 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.
진행 상황 확인
다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.
작업 2: 데이터 자산 및 유형 노드 살펴보기
입력 데이터 문자열 길이 줄이기에는 여러 노드가 포함됩니다. 데이터 자산 및 유형 노드를 검토하려면 다음 단계를 따르세요:
- 자산 탭에서 입력 데이터 문자열 길이 줄이기 모델러 플로우를 열고 캔버스가 로드될 때까지 기다립니다.
- drug_long_name.csv 노드를 더블클릭합니다. 이 노드는 프로젝트의 drug_long_name.csv 파일을 가리키는 데이터 에셋 노드입니다.
- 파일 형식 속성을 검토합니다.
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.
- 데이터 자산 노드 뒤의 유형 노드를 두 번 클릭합니다. 이 노드는 측정 수준(필드에 포함된 데이터 유형), 모델링에서 대상 또는 입력으로서 각 필드의 역할과 같은 필드 속성을 지정합니다. 측정 수준은 필드에서 데이터 유형을 나타내는 범주입니다. 소스 데이터 파일은 세 가지 측정 수준을 사용합니다:
- 연속형 필드(예: '
Age
필드)에는 연속형 숫자 값이 포함됩니다. - 명목 필드(예: '
Drug
필드)에는 두 개 이상의 고유한 값(이 경우 'drugA
' 또는 'drugB
')이 있습니다. - 플래그 필드(예: '
Sex
필드)는 고유한 순서가 있는 여러 개의 고유한 값을 가진 데이터를 설명합니다(이 경우 'F
, 'M
').
각 필드에 대해 Type 노드는 각 필드가 모델링에서 수행하는 역할을 나타내는 역할도 지정합니다. 역할은 고객의 콜레스테롤 수치가 정상인지 또는 높은지를 나타내는 필드인 '
Cholesterol_long
' 필드에 대해 타겟으로 설정됩니다. 대상은 값을 예측하려는 필드입니다.다른 필드에 대해서는 역할이 입력으로 설정됩니다. 입력 필드는 때때로 predictors 또는 목표 필드의 값을 예측하기 위해 모델링 알고리즘에서 값을 사용하는 필드로 알려져 있습니다.
- 연속형 필드(예: '
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 필터링된 데이터 집합을 확인합니다.
진행 상황 확인
다음 이미지는 Type 노드를 보여줍니다. 이제 Logistic 노드를 볼 준비가 되었습니다.
작업 3: 값 재분류
이 작업에서 모델을 실행하고 오류를 발견하면 다음 단계에 따라 오류를 피하기 위해 값을 재분류합니다:
- 팔레트의 모델링 섹션에서 물류 노드를 캔버스로 드래그하여 데이터 자산 노드 뒤의 기존 유형 노드에 연결합니다.
- 콜레스테롤_long 노드를 더블클릭하여 해당 속성을 확인합니다.
- 기본 다항식 프로시저 대신 이항식 프로시저를 선택합니다.
- 이항 모델은 대상 필드가 두 개의 불연속 값을 가진 플래그 또는 공칭 필드인 경우에 사용됩니다.
- 다항식 모델은 대상 필드가 두 개 이상의 값을 가진 명목 필드인 경우에 사용됩니다.
- 저장 을 클릭하십시오.
- 콜레스테롤_long 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
Cholesterol_long
문자열 값이 너무 길다는 오류 메시지가 표시됩니다. 재분류 노드를 사용하여 값을 변환하여 이 문제를 해결할 수 있습니다. 재분류 노드는 카테고리를 축소하거나 분석을 위해 데이터를 다시 그룹화하는 데 유용합니다. - 콜레스테롤(재분류 ) 노드를 두 번 클릭하여 해당 속성을 확인합니다. 재분류 필드가 '
Cholesterol_long
'로 설정되어 있고 새 필드 이름이 'Cholesterol
'인 것을 확인할 수 있습니다. - 값 가져오기를 클릭한 다음 자동 재분류 섹션을 펼칩니다. 원래 값 열에 '
Cholesterol_long
값을 추가합니다. - 새 값 열에 콜레스테롤 수치가 높은 원래 값의 경우 '
High
'을 입력하고 콜레스테롤 수치가 보통인 원래 값의 경우 'Normal
'를 입력합니다. 이러한 설정은 오류 메시지를 피하기 위해 값을 단축합니다.
진행 상황 확인
다음 이미지는 재분류 노드를 보여줍니다. 이제 필터 노드를 확인할 준비가 되었습니다.
작업 4: 필터 노드 확인
필터 노드를 확인하고 확인하려면 다음 단계를 따르세요:
- 필터 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 이 노드는 '
Cholesterol_long
' 필드를 필터링하는 것을 확인할 수 있습니다.
진행 상황 확인
다음 이미지는 필터 노드를 보여줍니다. 이제 대상을 정의할 준비가 되었습니다.
작업 5: 대상 정의
유형 노드에서 필드 속성을 지정할 수 있습니다. 다음 단계에 따라 유형 노드에서 대상을 정의합니다:
- 필터 노드 뒤의 유형 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 값 읽기를 클릭하여 데이터 소스에서 값을 읽고 필드 측정 유형을 설정합니다. 역할은 필드가 머신러닝 프로세스의 입력 (예측 필드) 또는 대상 (예측 필드)인지 여부를 모델링 노드에 알려줍니다. 교육, 테스트 및 유효성 검사를 위해 레코드를 별도의 샘플로 분할하는 데 사용되는 필드를 나타내는 파티션과 함께 둘 다 및 없음도 사용 가능한 역할입니다. Split 값은 필드의 가능한 각 값에 대해 별도의 모델을 만들도록 지정합니다.
- 콜레스테롤 필드에서 역할을 타깃으로 설정합니다.
- 저장 을 클릭하십시오.
진행 상황 확인
다음 이미지는 Type 노드를 보여줍니다. 이제 모델을 생성할 준비가 되었습니다.
작업 6: 모델 생성
모델 출력을 표 형식으로 보려면 다음 단계를 따르세요:
- 콜레스테롤(물류) 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
- 팔레트의 출력 섹션에서 표 노드를 캔버스로 드래그하여 모델 너겟에 연결합니다.
- 콜레스테롤 모델에 연결된 테이블 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
- 출력 및 모델 창에서 테이블이라는 이름의 출력 결과를 클릭하여 테이블 출력을 확인합니다.
진행 상황 확인
다음 이미지는 모델 출력을 보여줍니다.
요약
이 예에서는 지나치게 긴 문자열에서 발생할 수 있는 오류의 유형을 보여주고, 재분류 노드를 사용하여 문자열 세부 정보를 허용 가능한 길이로 변경하는 방법을 설명합니다. 이 예에서는 이항 로지스틱 회 귀 노드를 사용했지만, 자동 분류기 노드를 사용하여 이항 로지스틱 회귀 모델을 생성할 때도 동일하게 적용할 수 있습니다.
다음 단계
이제 다른 SPSS® Modeler 튜토리얼을 사용해 볼 준비가 되었습니다.