최신 변환이 아님
빠른 시작: SPSS Modeler를 사용하여 모델 빌드
SPSS Modeler를 사용하여 모델을 작성, 훈련 및 배치할 수 있습니다. SPSS Modeler에 대해 읽고 비디오를 시청하고 초보자에게 적합하며 코딩이 필요하지 않은 학습을 수행하십시오.
필요 서비스 Watson Studio(SPSS Modeler포함)
기본 워크플로우에는 다음 태스크가 포함됩니다.
- 프로젝트를 작성합니다. 프로젝트는 데이터 작업을 위해 다른 사용자와 협업하는 위치입니다.
- 프로젝트에 SPSS Modeler 플로우를 추가하십시오.
- 캔버스에 노드를 구성하고 플로우를 실행하십시오.
- 모델 세부사항을 검토하고 모델을 저장하십시오.
- 모델을 배치하고 테스트하십시오.
SPSS Modeler에 대한 정보
SPSS Modeler 플로우를 사용하면 비즈니스 전문 지식을 사용하여 예측 모델을 신속하게 개발하고 비즈니스 조작에 배치하여 의사 결정을 향상시킬 수 있습니다. 오랫동안 설정된 SPSS Modeler 클라이언트 소프트웨어 및 이를 사용하는 업계 표준 CRISP-DM 모델을 사용하여 설계된 플로우 인터페이스는 데이터에서 더 나은 비즈니스 결과로 전체 데이터 마이닝 프로세스를 지원합니다.
SPSS Modeler는 머신 러닝, 인공 지능 및 통계에서 얻은 다양한 모델링 방법을 제공합니다. 노드 팔레트에서 사용할 수 있는 이러한 방법을 통해 데이터로부터 새로운 정보를 얻어서 예측 모델을 개발할 수 있습니다. 각각의 방법은 그것만의 장점이 있으며 특정한 문제점 유형에 가장 적합합니다.
SPSS Modeler를 사용하여 모델 작성에 대한 비디오 시청
머신 러닝 모델을 훈련하기 위해 SPSS Modeler 플로우를 작성하고 실행하는 방법을 보려면 이 비디오를 시청하십시오.
이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.
SPSS Modeler를 사용하여 모델을 작성하기 위해 학습 시도
이 튜토리얼에서는 다음을 수행합니다.
- 프로젝트 작성
- 갤러리에서 데이터 세트 추가
- 새 SPSS Modeler 플로우 작성
- SPSS Modeler 플로우를 실행하여 모델 훈련
- 모델 탐색 및 테스트
- 배치 공간에 모델 배치
이 튜토리얼을 완료하는 데 대략 30분 정도 소요됩니다.
예 데이터
이 학습서에서 사용되는 데이터 세트는 캘리포니아 대학교 어바인(Irvine)의 것이며, 일정 기간에 걸친 병원 입학에 기초한 광범위한 연구의 결과입니다. 이 모델은 만성 신장 질환을 예측하는데 도움이 되는 중요한 세 가지 요인을 사용할 것입니다.
1단계: 프로젝트 작성
{: #step1} SPSS Modeler 플로우를 저장할 프로젝트가 필요합니다.
- 기존 프로젝트가 있는 경우, 이를 여십시오. 기존 프로젝트가 없는 경우 홈 페이지에서 프로젝트 작성을 클릭하거나 프로젝트 페이지에서 새 프로젝트를 클릭하십시오.
- 빈 프로젝트 작성을 선택하십시오.
- 프로젝트 작성 화면에서 프로젝트에 대한 이름 및 선택적 설명을 추가하십시오.
- 기존 오브젝트 스토리지 서비스 인스턴스을(를) 선택하거나 새로 작성하십시오.
- 작성을 클릭하십시오.
자세한 내용을 보거나 비디오를 시청하려면 프로젝트 작성을(를) 참조하십시오.
2단계: 갤러리에서 데이터 세트 추가
{: #step2}이(가) 학습서에서 사용되는 데이터 세트는 갤러리에서 사용 가능합니다.
- 갤러리의 UCI ML 저장소: 만성 신장 질환 데이터 세트에 액세스하십시오.
- 미리 보기를 클릭하십시오. 이 분석의 일부로서 이용 가능한 만성 신장 질환을 예측하는 데에 도움이 되는 3가지 중요한 인자가 있습니다. 시험 대상의 연령, 혈청 크레아티닌 검사 결과 및 당뇨병 시험 결과. 그리고 클래스 값은 환자가 이전에 신장 질환에 대해 진단되었는지를 나타냅니다.
- 프로젝트에 추가를 클릭하십시오.
- 목록에서 프로젝트를 선택하고 추가를 클릭하십시오.
- 프로젝트 보기를 클릭하십시오.
- 프로젝트의 자산 페이지에서 UCI ML Repository Chronic Kidney Disease Data Set.csv 파일을 찾으십시오.
단계 3: SPSS Modeler 플로우 작성
{: #step3} 이제 프로젝트에 SPSS Modeler 플로우를 추가하십시오.
- 프로젝트에 추가를 클릭하고 모델러 플로우를 선택하십시오.
- 플로우의 이름 및 설명을 입력하십시오.
- 런타임 정의의 경우 기본값 SPSS Modeler S 정의를 승인하십시오.
- 작성을 클릭하십시오. 플로우를 작성하는 데 사용할 플로우 편집기가 열립니다.
단계 4: SPSS Modeler 플로우에 노드 추가
{: #step4} 데이터를 로드한 후 데이터를 변환해야 합니다. 변환기 및 평가자를 캔버스로 끌어 데이터 소스에 연결하여 단순한 플로우를 작성하게 됩니다. 팔레트에서 다음 노드를 사용하십시오.
- 데이터 자산: 프로젝트에서 csv 파일 로드
- 파티션: 데이터를 훈련 및 테스트 세그먼트로 나누기
- 유형: 데이터 유형을 설정합니다. 이를 사용하여
class
필드를target
유형으로 지정하십시오. - C5.0: 분류 알고리즘
- 분석: 모델을 보고 정확도 확인
-
테이블: 예측을 사용하여 데이터 미리보기
-
가져오기 섹션에서 데이터 자산 노드를 캔버스로 끌어오십시오.
- 데이터 자산 노드를 두 번 클릭하여 데이터 세트를 선택하십시오.
- UCI ML Repository Chronic Kidney Disease Data Set.csv를 선택하십시오.
- 선택을 클릭하십시오.
- 데이터 자산 특성을 봅니다.
- 저장을 클릭하십시오.
- 필드 조작 섹션에서 파티션 노드를 캔버스로 끌어오십시오.
- 데이터 자산 노드를 파티션 노드에 연결하십시오.
- 파티션 노드를 두 번 클릭하여 해당 특성을 보십시오. 기본 파티션은 훈련을 위해 데이터의 절반을 분할하고 나머지 절반은 테스트를 위해 나눕니다.
- 저장을 클릭하십시오.
- 필드 조작 섹션에서 유형 노드를 캔버스로 끌어오십시오.
- 파티션 노드를 유형 노드에 연결하십시오.
- 유형 노드를 두 번 클릭하여 해당 특성을 보십시오. 유형 노드는 각 필드에 대한 측정 수준을 지정합니다. 이 소스 데이터 파일은 네 개의 다른 측정 수준(연속, 카테고리형, 명목, 순서 및 플래그)을 사용합니다.
class
필드를 검색하십시오. 각 필드에 대해 역할은 각 필드가 모델링에서 수행하는 파트를 표시합니다.class
역할을 대상으로 변경 - 예측하고 싶은 필드입니다.- 저장을 클릭하십시오.
- 모델링 섹션에서 C5.0 노드를 캔버스로 끌어오십시오.
- 유형 노드를 C5.0 노드에 연결하십시오.
- C5.0 노드를 두 번 클릭하여 해당 특성을 보십시오. 기본적으로 C5.0 알고리즘은 의사결정 트리를 빌드합니다. C5.0 모델은 최대 정보 증가를 제공하는 필드를 기반으로 샘플을 분할하여 작동합니다. 첫 번째 분할에 의해 정의된 각 하위 샘플은 일반적으로 다른 필드에 기반하여 다시 분할되며, 하위 샘플이 더 이상 분할될 수 없을 때까지 프로세스가 반복됩니다. 마지막으로 최하위 레벨 분할이 다시 검토되고 모델의 값에 크게 기여하지 않는 분할이 제거됩니다.
- 사용자 정의 필드 역할 사용을 선택하십시오.
- 대상의 경우 클래스를 선택하십시오.
- 입력 섹션에서 열 추가를 클릭하십시오.
- age, sc, dm을 선택하십시오.
- 확인을 클릭하십시오.
- 저장을 클릭하십시오.
플로우 작성을 완료하면 다음 이미지와 유사해야 합니다.
5단계: SPSS Modeler 플로우 실행 및 모델 세부사항 탐색
{: #step5} 플로우를 설계했으므로 플로우를 실행하고 트리 다이어그램을 조사하여 의사결정 지점을 확인할 수 있습니다.
- C5.0 노드를 마우스 오른쪽 단추로 클릭하고 실행을 선택하십시오. 플로우를 실행하면 캔버스에서 새 모델 너깃이 생성됩니다.
- 모델 너깃을 마우스 오른쪽 단추로 클릭하고 모델 보기를 선택하여 모델 세부사항을 보십시오.
- 모델 요약을 제공하는 모델 정보를 보십시오.
- 상위 결정 규칙을 클릭하십시오. 테이블은 다른 입력 필드의 값을 기반으로 하위 노드에 개별 레코드를 지정하는 데 사용된 일련의 규칙을 표시합니다.
- 기능 중요도를 클릭하십시오. 차트는 모델 추정 시 각 예측변수의 상대적 중요도를 표시합니다. 이로부터, 혈청 크레아티닌이 가장 중요한 인자이고, 당뇨병이 그 다음으로 가장 중요한 인자라는 것을 알 수 있습니다.
- 트리 다이어그램을 클릭하십시오. 동일한 모델이 각 의사결정 지점에 노드가 있는 트리 양식으로 표시됩니다.
- 분기에 레이블 표시 옵션을 선택하십시오.
- 데이터 세트의 모든 레코드에 대한 요약을 제공하는 노드 0위로 마우스를 이동하십시오. 데이터 세트의 케이스 중 40% 만이 신장 질환으로 진단되지 않은 것으로 분류됩니다. 트리는 원인이 될 수 있는 요인에 대한 추가 단서를 제공할 수 있습니다.
- 노드 0에서 발생하는 두 분기는 혈청 크레아티닌으로 분할됨을 표시합니다.
- 혈청 크레아티닌이 1.25보다 큰 레코드를 표시하는 노드 6위로 마우스를 이동하십시오. 이 경우, 이들 환자의 100%가 양성 신장 질환 진단을 갖습니다.
- 혈청 크레아티닌이 1.25 이하인 레코드를 표시하는 노드 1 위로 마우스를 이동하십시오. 이들 환자의 거의 80%는 양성 신장질환 진단을 받지 않지만, 혈청 크레아티닌이 더 낮은 20%는 여전히 신장 질환으로 진단되었습니다.
- 노드 1의 분기는 당뇨병으로 분할됩니다. 저혈청 크레아티닌 및 진단된 당뇨병 환자를 표시하는 노드 2 위로 마우스를 이동하십시오. 이들 환자의 100%도 신장질환 진단을 받았습니다.
- 노드 3위에 마우스를 올리십시오. 혈청 크레아티닌이 낮고, 당뇨병이 없는 환자의 경우, 85% 이상이 신장 질환으로 진단되지 않았지만, 이들 중 15%는 여전히 신장 질환으로 진단받았습니다.
- 노드 3의 분기는 마지막 중요한 인자인 나이로 분할됩니다. 혈청 크레아티닌이 낮고 당뇨병이 없는 젊은 환자의 75%가 신장 질환에 걸릴 위험이 있는지 확인하기 위해 노드 4 위로 마우스를 이동하십시오.
- 노드 5 위에 마우스를 올리십시오. 16세 이상 환자 중 혈청 크레아티닌이 낮고 당뇨병이 없는 환자는 11%에 불과했습니다.
- 모델 세부사항을 닫으십시오.
6단계: 모델 평가
{: #step6} 분석 및 테이블 노드를 사용하여 모델을 평가하십시오.
- 출력 섹션에서 분석 노드를 캔버스로 끌어오십시오.
- 모델 너깃을 분석 노드에 연결하십시오.
- 분석 노드를 마우스 오른쪽 단추로 클릭하고 실행을 선택하십시오.
- 출력 패널에서 분석을 열고 모델이 시간의 95%에 대해 신장 질환 진단을 올바르게 예측했음을 표시합니다. 분석을 닫으십시오.
- (선택사항) 도구 모음에서 다운로드 아이콘을 클릭하여 모델을 .str 파일로 저장하십시오.
- 분석 노드를 마우스 오른쪽 단추로 클릭하고 분기를 모델로 저장을 선택하십시오.
- 모델 이름의 경우
Kidney Disease Analysis
을(를) 입력하십시오. - 저장을 클릭하십시오.
- 모델 이름의 경우
- 출력 섹션에서 테이블 노드를 캔버스로 끌어오십시오.
- 모델 너깃을 테이블 노드에 연결하십시오.
- 테이블 노드를 마우스 오른쪽 단추로 클릭하고 미리 보기를 선택하십시오.
- 미리보기가 표시되면 마지막 두 열로 스크롤하십시오. $C-Class 열은 신장 질환의 예측을 포함하고, $CC-Class 열은 해당 예측의 신뢰도 점수를 표시합니다.
- 미리 보기를 닫으십시오.
7단계: 새 데이터로 모델 배치 및 테스트
{: #step7}마지막으로 이 모델을 배치하고 새 데이터로 결과를 예측할 수 있습니다.
- 프로젝트의 자산 탭으로 돌아가십시오.
- 모델 섹션으로 스크롤하여 신장 질환 분석 모델을 여십시오.
- 배치 공간으로 프로모션을 클릭하십시오.
- 기존 배치 영역을 선택하십시오. 배치 공간이 없는 경우 새 배치 공간을 작성할 수 있습니다.
- 영역 이름을 제공하십시오.
- 스토리지 서비스를 선택하십시오.
- 기계 학습 서비스를 선택하십시오.
- 작성을 클릭하십시오.
- 닫기를 클릭하십시오.
- 프로모션 후 공간의 모델로 이동을 선택하십시오.
- 승격을 클릭하십시오.
- 배치 공간 내에 모델이 표시되면 새 배치를 클릭하십시오.
- 배치 유형으로 온라인을 선택하십시오.
- 배치의 이름을 지정하십시오.
- 작성을 클릭하십시오.
- 배치 탭으로 이동하여 모델이 배치될 때까지 기다리십시오.
- 배치가 완료되면 배치 이름을 클릭하여 배치 세부사항 페이지를 보십시오.
- 테스트 탭으로 이동하십시오. JSON 코드로 테스트 또는 형식으로 테스트의 두 가지 방식으로 배치 세부사항 페이지에서 배치된 모델을 테스트할 수 있습니다.
-
JSON으로 입력 데이터 제공 아이콘을 클릭한 후 다음 테스트 데이터를 복사하여 JSON 텍스트의 영역에 붙여넣으십시오.
{"input_data":[{"fields":["age","bp","sg","al","su","rbc","pc","pcc","ba","bgr","bu","sc","sod","pot","hemo","pcv","wbcc","rbcc","htn","dm","cad","appet","pe","ane","class"], "values":[["62","80","1.01","2","3","normal","normal","notpresent","notpresent","423","53","1.8","","","9.6","31","7500","","no","yes","no","poor","no","yes","ckd"]]}]}
- 예측을 클릭하여 당뇨가 있는 62세와 혈청 크레아티닌 비율이 1.8인지 여부를 신장 질환으로 진단할 수 있는지 여부를 예측하십시오. 결과 예측은 이 환자가 신장 질환 진단의 가능성이 높다는 것을 나타냅니다.
다음 단계
이제 차후 분석을 위해 이 데이터 세트를 사용할 수 있습니다. 예를 들어, 다음과 같은 태스크를 수행할 수 있습니다.
- AutoAI를 이용한 머신 러닝 모델 빌드 및 배치
- Jupyter 노트북에서 머신 러닝 모델 빌드 및 배치
- 데이터 정리 및 데이터 구체화
- 노트북에서 데이터 분석
- 대시보드를 사용하여 데이터 시각화
추가 자원
- 자세한 정보: SPSS Modeler 학습서
- 머신 러닝에 대한 비디오 보기
- 샘플 데이터 세트 및 노트북을 찾아 갤러리에서 모델 빌드 모델을 얻을 수 있음
- 이 추가 튜토리얼을 시도하여 노트북에서 모델을 빌드하고 AutoAI를 사용하여 추가 실제 경험을 얻으십시오.
- Jupyter 노트북을 사용하여 모델 빌드
- Watson Studio에서 모델 빌드 자동화
- Jupyter 노트북을 사용하여 모델 빌드