빠른 시작: SPSS Modeler를 사용하여 모델 빌드

SPSS Modeler를 사용하여 모델을 작성, 훈련 및 배치할 수 있습니다. SPSS Modeler에 대해 읽고 비디오를 시청하고 초보자에게 적합하며 코딩이 필요하지 않은 학습을 수행하십시오.

필요 서비스 Watson Studio(SPSS Modeler포함)

기본 워크플로우에는 다음 태스크가 포함됩니다.

  1. 프로젝트를 작성합니다. 프로젝트는 데이터 작업을 위해 다른 사용자와 협업하는 위치입니다.
  2. 프로젝트에 SPSS Modeler 플로우를 추가하십시오.
  3. 캔버스에 노드를 구성하고 플로우를 실행하십시오.
  4. 모델 세부사항을 검토하고 모델을 저장하십시오.
  5. 모델을 배치하고 테스트하십시오.

SPSS Modeler에 대한 정보

SPSS Modeler 플로우를 사용하면 비즈니스 전문 지식을 사용하여 예측 모델을 신속하게 개발하고 비즈니스 조작에 배치하여 의사 결정을 향상시킬 수 있습니다. 오랫동안 설정된 SPSS Modeler 클라이언트 소프트웨어 및 이를 사용하는 업계 표준 CRISP-DM 모델을 사용하여 설계된 플로우 인터페이스는 데이터에서 더 나은 비즈니스 결과로 전체 데이터 마이닝 프로세스를 지원합니다.

SPSS Modeler는 머신 러닝, 인공 지능 및 통계에서 얻은 다양한 모델링 방법을 제공합니다. 노드 팔레트에서 사용할 수 있는 이러한 방법을 통해 데이터로부터 새로운 정보를 얻어서 예측 모델을 개발할 수 있습니다. 각각의 방법은 그것만의 장점이 있으며 특정한 문제점 유형에 가장 적합합니다.

SPSS Modeler에 대한 자세한 정보

모델을 빌드하는 다른 방법에 대해 학습

SPSS Modeler를 사용하여 모델 작성에 대한 비디오 시청

비디오 시청 머신 러닝 모델을 훈련하기 위해 SPSS Modeler 플로우를 작성하고 실행하는 방법을 보려면 이 비디오를 시청하십시오.

이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.

SPSS Modeler를 사용하여 모델을 작성하기 위해 학습 시도

이 튜토리얼에서는 다음을 수행합니다.

  • 프로젝트 작성
  • 갤러리에서 데이터 세트 추가
  • 새 SPSS Modeler 플로우 작성
  • SPSS Modeler 플로우를 실행하여 모델 훈련
  • 모델 탐색 및 테스트
  • 배치 공간에 모델 배치

이 튜토리얼을 완료하는 데 대략 30분 정도 소요됩니다.

예 데이터

이 학습서에서 사용되는 데이터 세트는 캘리포니아 대학교 어바인(Irvine)의 것이며, 일정 기간에 걸친 병원 입학에 기초한 광범위한 연구의 결과입니다. 이 모델은 만성 신장 질환을 예측하는데 도움이 되는 중요한 세 가지 요인을 사용할 것입니다.

1단계: 프로젝트 작성

{: #step1} SPSS Modeler 플로우를 저장할 프로젝트가 필요합니다.

  1. 기존 프로젝트가 있는 경우, 이를 여십시오. 기존 프로젝트가 없는 경우 홈 페이지에서 프로젝트 작성을 클릭하거나 프로젝트 페이지에서 새 프로젝트를 클릭하십시오.
  2. 빈 프로젝트 작성을 선택하십시오.
  3. 프로젝트 작성 화면에서 프로젝트에 대한 이름 및 선택적 설명을 추가하십시오.
  4. 기존 오브젝트 스토리지 서비스 인스턴스을(를) 선택하거나 새로 작성하십시오.
  5. 작성을 클릭하십시오.

자세한 내용을 보거나 비디오를 시청하려면 프로젝트 작성을(를) 참조하십시오.

2단계: 갤러리에서 데이터 세트 추가

{: #step2}이(가) 학습서에서 사용되는 데이터 세트는 갤러리에서 사용 가능합니다.

  1. 갤러리UCI ML 저장소: 만성 신장 질환 데이터 세트에 액세스하십시오.
  2. 미리 보기를 클릭하십시오. 이 분석의 일부로서 이용 가능한 만성 신장 질환을 예측하는 데에 도움이 되는 3가지 중요한 인자가 있습니다. 시험 대상의 연령, 혈청 크레아티닌 검사 결과 및 당뇨병 시험 결과. 그리고 클래스 값은 환자가 이전에 신장 질환에 대해 진단되었는지를 나타냅니다.
  3. 프로젝트에 추가를 클릭하십시오.
  4. 목록에서 프로젝트를 선택하고 추가를 클릭하십시오.
  5. 프로젝트 보기를 클릭하십시오.
  6. 프로젝트의 자산 페이지에서 UCI ML Repository Chronic Kidney Disease Data Set.csv 파일을 찾으십시오.

단계 3: SPSS Modeler 플로우 작성

{: #step3} 이제 프로젝트에 SPSS Modeler 플로우를 추가하십시오.

  1. 프로젝트에 추가를 클릭하고 모델러 플로우를 선택하십시오.
  2. 플로우의 이름 및 설명을 입력하십시오.
  3. 런타임 정의의 경우 기본값 SPSS Modeler S 정의를 승인하십시오.
  4. 작성을 클릭하십시오. 플로우를 작성하는 데 사용할 플로우 편집기가 열립니다.

단계 4: SPSS Modeler 플로우에 노드 추가

{: #step4} 데이터를 로드한 후 데이터를 변환해야 합니다. 변환기 및 평가자를 캔버스로 끌어 데이터 소스에 연결하여 단순한 플로우를 작성하게 됩니다. 팔레트에서 다음 노드를 사용하십시오.

  • 데이터 자산: 프로젝트에서 csv 파일 로드
  • 파티션: 데이터를 훈련 및 테스트 세그먼트로 나누기
  • 유형: 데이터 유형을 설정합니다. 이를 사용하여 class 필드를 target 유형으로 지정하십시오.
  • C5.0: 분류 알고리즘
  • 분석: 모델을 보고 정확도 확인
  • 테이블: 예측을 사용하여 데이터 미리보기

  • 가져오기 섹션에서 데이터 자산 노드를 캔버스로 끌어오십시오.

    1. 데이터 자산 노드를 두 번 클릭하여 데이터 세트를 선택하십시오.
    2. UCI ML Repository Chronic Kidney Disease Data Set.csv를 선택하십시오.
    3. 선택을 클릭하십시오.
    4. 데이터 자산 특성을 봅니다.
    5. 저장을 클릭하십시오.
  • 필드 조작 섹션에서 파티션 노드를 캔버스로 끌어오십시오.
    1. 데이터 자산 노드를 파티션 노드에 연결하십시오.
    2. 파티션 노드를 두 번 클릭하여 해당 특성을 보십시오. 기본 파티션은 훈련을 위해 데이터의 절반을 분할하고 나머지 절반은 테스트를 위해 나눕니다.
    3. 저장을 클릭하십시오.
  • 필드 조작 섹션에서 유형 노드를 캔버스로 끌어오십시오.
    1. 파티션 노드를 유형 노드에 연결하십시오.
    2. 유형 노드를 두 번 클릭하여 해당 특성을 보십시오. 유형 노드는 각 필드에 대한 측정 수준을 지정합니다. 이 소스 데이터 파일은 네 개의 다른 측정 수준(연속, 카테고리형, 명목, 순서 및 플래그)을 사용합니다.
    3. class 필드를 검색하십시오. 각 필드에 대해 역할은 각 필드가 모델링에서 수행하는 파트를 표시합니다. class 역할대상으로 변경 - 예측하고 싶은 필드입니다.
    4. 저장을 클릭하십시오.
  • 모델링 섹션에서 C5.0 노드를 캔버스로 끌어오십시오.
  • 유형 노드를 C5.0 노드에 연결하십시오.
    1. C5.0 노드를 두 번 클릭하여 해당 특성을 보십시오. 기본적으로 C5.0 알고리즘은 의사결정 트리를 빌드합니다. C5.0 모델은 최대 정보 증가를 제공하는 필드를 기반으로 샘플을 분할하여 작동합니다. 첫 번째 분할에 의해 정의된 각 하위 샘플은 일반적으로 다른 필드에 기반하여 다시 분할되며, 하위 샘플이 더 이상 분할될 수 없을 때까지 프로세스가 반복됩니다. 마지막으로 최하위 레벨 분할이 다시 검토되고 모델의 값에 크게 기여하지 않는 분할이 제거됩니다.
    2. 사용자 정의 필드 역할 사용을 선택하십시오.
    3. 대상의 경우 클래스를 선택하십시오.
    4. 입력 섹션에서 열 추가를 클릭하십시오.
    5. age, sc, dm을 선택하십시오.
    6. 확인을 클릭하십시오.
    7. 저장을 클릭하십시오.

플로우 작성을 완료하면 다음 이미지와 유사해야 합니다.

데이터 자산 노드, 파티션 노드, 유형 노드 및 C5.0 클래스 노드를 표시하는 플로우

5단계: SPSS Modeler 플로우 실행 및 모델 세부사항 탐색

{: #step5} 플로우를 설계했으므로 플로우를 실행하고 트리 다이어그램을 조사하여 의사결정 지점을 확인할 수 있습니다.

  1. C5.0 노드를 마우스 오른쪽 단추로 클릭하고 실행을 선택하십시오. 플로우를 실행하면 캔버스에서 새 모델 너깃이 생성됩니다.
  2. 모델 너깃을 마우스 오른쪽 단추로 클릭하고 모델 보기를 선택하여 모델 세부사항을 보십시오.
  3. 모델 요약을 제공하는 모델 정보를 보십시오.
  4. 상위 결정 규칙을 클릭하십시오. 테이블은 다른 입력 필드의 값을 기반으로 하위 노드에 개별 레코드를 지정하는 데 사용된 일련의 규칙을 표시합니다.
  5. 기능 중요도를 클릭하십시오. 차트는 모델 추정 시 각 예측변수의 상대적 중요도를 표시합니다. 이로부터, 혈청 크레아티닌이 가장 중요한 인자이고, 당뇨병이 그 다음으로 가장 중요한 인자라는 것을 알 수 있습니다.
  6. 트리 다이어그램을 클릭하십시오. 동일한 모델이 각 의사결정 지점에 노드가 있는 트리 양식으로 표시됩니다.
    1. 분기에 레이블 표시 옵션을 선택하십시오.
    2. 데이터 세트의 모든 레코드에 대한 요약을 제공하는 노드 0위로 마우스를 이동하십시오. 데이터 세트의 케이스 중 40% 만이 신장 질환으로 진단되지 않은 것으로 분류됩니다. 트리는 원인이 될 수 있는 요인에 대한 추가 단서를 제공할 수 있습니다.
    3. 노드 0에서 발생하는 두 분기는 혈청 크레아티닌으로 분할됨을 표시합니다.
    4. 혈청 크레아티닌이 1.25보다 큰 레코드를 표시하는 노드 6위로 마우스를 이동하십시오. 이 경우, 이들 환자의 100%가 양성 신장 질환 진단을 갖습니다.
    5. 혈청 크레아티닌이 1.25 이하인 레코드를 표시하는 노드 1 위로 마우스를 이동하십시오. 이들 환자의 거의 80%는 양성 신장질환 진단을 받지 않지만, 혈청 크레아티닌이 더 낮은 20%는 여전히 신장 질환으로 진단되었습니다.
    6. 노드 1의 분기는 당뇨병으로 분할됩니다. 저혈청 크레아티닌 및 진단된 당뇨병 환자를 표시하는 노드 2 위로 마우스를 이동하십시오. 이들 환자의 100%도 신장질환 진단을 받았습니다.
    7. 노드 3위에 마우스를 올리십시오. 혈청 크레아티닌이 낮고, 당뇨병이 없는 환자의 경우, 85% 이상이 신장 질환으로 진단되지 않았지만, 이들 중 15%는 여전히 신장 질환으로 진단받았습니다.
    8. 노드 3의 분기는 마지막 중요한 인자인 나이로 분할됩니다. 혈청 크레아티닌이 낮고 당뇨병이 없는 젊은 환자의 75%가 신장 질환에 걸릴 위험이 있는지 확인하기 위해 노드 4 위로 마우스를 이동하십시오.
    9. 노드 5 위에 마우스를 올리십시오. 16세 이상 환자 중 혈청 크레아티닌이 낮고 당뇨병이 없는 환자는 11%에 불과했습니다.
    10. 모델 세부사항을 닫으십시오.

6단계: 모델 평가

{: #step6} 분석 및 테이블 노드를 사용하여 모델을 평가하십시오.

  1. 출력 섹션에서 분석 노드를 캔버스로 끌어오십시오.
  2. 모델 너깃을 분석 노드에 연결하십시오.
  3. 분석 노드를 마우스 오른쪽 단추로 클릭하고 실행을 선택하십시오.
  4. 출력 패널에서 분석을 열고 모델이 시간의 95%에 대해 신장 질환 진단을 올바르게 예측했음을 표시합니다. 분석을 닫으십시오.
  5. (선택사항) 도구 모음에서 다운로드 아이콘을 클릭하여 모델을 .str 파일로 저장하십시오.
  6. 분석 노드를 마우스 오른쪽 단추로 클릭하고 분기를 모델로 저장을 선택하십시오.
    1. 모델 이름의 경우 Kidney Disease Analysis을(를) 입력하십시오.
    2. 저장을 클릭하십시오.
  7. 출력 섹션에서 테이블 노드를 캔버스로 끌어오십시오.
    1. 모델 너깃을 테이블 노드에 연결하십시오.
    2. 테이블 노드를 마우스 오른쪽 단추로 클릭하고 미리 보기를 선택하십시오.
    3. 미리보기가 표시되면 마지막 두 열로 스크롤하십시오. $C-Class 열은 신장 질환의 예측을 포함하고, $CC-Class 열은 해당 예측의 신뢰도 점수를 표시합니다.
    4. 미리 보기를 닫으십시오.

7단계: 새 데이터로 모델 배치 및 테스트

{: #step7}마지막으로 이 모델을 배치하고 새 데이터로 결과를 예측할 수 있습니다.

  1. 프로젝트의 자산 탭으로 돌아가십시오.
  2. 모델 섹션으로 스크롤하여 신장 질환 분석 모델을 여십시오.
  3. 배치 공간으로 프로모션을 클릭하십시오.
  4. 기존 배치 영역을 선택하십시오. 배치 공간이 없는 경우 새 배치 공간을 작성할 수 있습니다.
    1. 영역 이름을 제공하십시오.
    2. 스토리지 서비스를 선택하십시오.
    3. 기계 학습 서비스를 선택하십시오.
    4. 작성을 클릭하십시오.
    5. 닫기를 클릭하십시오.
  5. 프로모션 후 공간의 모델로 이동을 선택하십시오.
  6. 승격을 클릭하십시오.
  7. 배치 공간 내에 모델이 표시되면 새 배치를 클릭하십시오.
    1. 배치 유형으로 온라인을 선택하십시오.
    2. 배치의 이름을 지정하십시오.
    3. 작성을 클릭하십시오.
  8. 배치 탭으로 이동하여 모델이 배치될 때까지 기다리십시오.
  9. 배치가 완료되면 배치 이름을 클릭하여 배치 세부사항 페이지를 보십시오.
  10. 테스트 탭으로 이동하십시오. JSON 코드로 테스트 또는 형식으로 테스트의 두 가지 방식으로 배치 세부사항 페이지에서 배치된 모델을 테스트할 수 있습니다.
  11. JSON으로 입력 데이터 제공 아이콘을 클릭한 후 다음 테스트 데이터를 복사하여 JSON 텍스트의 영역에 붙여넣으십시오.

    {"input_data":[{"fields":["age","bp","sg","al","su","rbc","pc","pcc","ba","bgr","bu","sc","sod","pot","hemo","pcv","wbcc","rbcc","htn","dm","cad","appet","pe","ane","class"], "values":[["62","80","1.01","2","3","normal","normal","notpresent","notpresent","423","53","1.8","","","9.6","31","7500","","no","yes","no","poor","no","yes","ckd"]]}]}
    
  12. 예측을 클릭하여 당뇨가 있는 62세와 혈청 크레아티닌 비율이 1.8인지 여부를 신장 질환으로 진단할 수 있는지 여부를 예측하십시오. 결과 예측은 이 환자가 신장 질환 진단의 가능성이 높다는 것을 나타냅니다.

다음 단계

이제 차후 분석을 위해 이 데이터 세트를 사용할 수 있습니다. 예를 들어, 다음과 같은 태스크를 수행할 수 있습니다.

추가 자원