빠른 시작: SPSS Modeler를 사용하여 모델 빌드
SPSS Modeler를 사용하여 모델을 작성, 훈련 및 배치할 수 있습니다. SPSS Modeler에 대해 읽고 비디오를 시청하고 초보자에게 적합하며 코딩이 필요하지 않은 학습을 수행하십시오.
- 필수 서비스
- Watson Studio ( SPSS Modeler포함)
- Watson Machine Learning
기본 워크플로우에는 다음 태스크가 포함됩니다.
- 프로젝트를 작성하십시오. 프로젝트는 데이터 작업을 위해 다른 사용자와 협업하는 위치입니다.
- 프로젝트에 SPSS Modeler 플로우를 추가하십시오.
- 캔버스에 노드를 구성하고 플로우를 실행하십시오.
- 모델 세부사항을 검토하고 모델을 저장하십시오.
- 모델을 배치하고 테스트하십시오.
SPSS Modeler에 대한 정보
SPSS Modeler 플로우를 사용하면 비즈니스 전문 지식을 사용하여 예측 모델을 신속하게 개발하고 비즈니스 조작에 배치하여 의사 결정을 향상시킬 수 있습니다. 오랜 역사를 자랑하는 SPSS Modeler 클라이언트 소프트웨어와 이 소프트웨어가 사용하는 업계 표준 CRISP-DM 모델을 기반으로 설계된 흐름 인터페이스는 데이터에서 더 나은 비즈니스 결과에 이르는 전체 데이터 마이닝 프로세스를 용이하게 해줍니다.
SPSS Modeler는 머신 러닝, 인공 지능 및 통계에서 얻은 다양한 모델링 방법을 제공합니다. 노드 팔레트에서 사용할 수 있는 이러한 방법을 통해 데이터로부터 새로운 정보를 얻어서 예측 모델을 개발할 수 있습니다. 각각의 방법은 그것만의 장점이 있으며 특정한 문제점 유형에 가장 적합합니다.
SPSS Modeler를 사용하여 모델 작성에 대한 비디오 시청
머신 러닝 모델을 훈련하기 위해 SPSS Modeler 플로우를 작성하고 실행하는 방법을 보려면 이 비디오를 시청하십시오.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
SPSS Modeler를 사용하여 모델을 작성하기 위해 학습 시도
이 학습서에서는 다음 태스크를 완료합니다.
- 태스크 1: 프로젝트를 여십시오.
- 태스크 2: 프로젝트에 데이터 세트 추가
- 태스크 3: SPSS Modeler 플로우 작성
- 태스크 4: SPSS Modeler 플로우에 노드를 추가하십시오.
- 태스크 5: SPSS Modeler 플로우를 실행하고 모델 세부사항을 탐색하십시오.
- 태스크 6: 모델 평가
- 태스크 7: 새 데이터로 모델 배치 및 테스트
이 튜토리얼을 완료하는 데 대략 30분 정도 소요됩니다.
예 데이터
이 학습서에서 사용되는 데이터 세트는 캘리포니아 대학교 어바인(Irvine)의 것이며, 일정 기간에 걸친 병원 입학에 기초한 광범위한 연구의 결과입니다. 이 모델은 만성 신장 질환을 예측하는데 도움이 되는 중요한 세 가지 요인을 사용할 것입니다.
이 학습을 완료하기 위한 팁
다음은 이 학습서를 성공적으로 완료하기 위한 몇 가지 팁입니다.
비디오 사진 사용
다음 애니메이션 이미지는 비디오 픽처 인 픽처 및 목차 기능을 사용하는 방법을 보여줍니다.
커뮤니티에서 도움 받기
이 튜토리얼에 대한 도움이 필요한 경우 Cloud Pak for Data 커뮤니티 토론 포럼에서 질문하거나 응답을 찾을 수 있습니다.
브라우저 창 설정
이 튜토리얼을 완료하는 최적의 경험을 위해 한 브라우저 창에서 Cloud Pak for Data 를 열고 두 애플리케이션 간에 쉽게 전환할 수 있도록 다른 브라우저 창에서 이 튜토리얼 페이지를 열어 두십시오. 따라하기 쉽도록 두 개의 브라우저 창을 나란히 배열하는 것을 고려하십시오.
태스크 1: 프로젝트 열기
SPSS Modeler 플로우를 저장하려면 프로젝트가 필요합니다. 기존 프로젝트를 사용하거나 프로젝트를 작성할 수 있습니다.
탐색 메뉴 에서 프로젝트 > 모든 프로젝트 보기 를 선택하십시오.
기존 프로젝트를 엽니다. 새 프로젝트를 사용하려면 다음을 수행하십시오.
새 프로젝트를 클릭하십시오.
빈 프로젝트 작성을 선택하십시오.
프로젝트의 이름 및 선택적 설명을 입력하십시오.
기존 오브젝트 스토리지 서비스 인스턴스를 선택하거나 새로 작성하십시오.
작성을 클릭하십시오.
추가 정보나 동영상을 보려면 프로젝트 작성을 참조하십시오.
진행 상태 확인
다음 이미지는 새 프로젝트를 표시합니다.
태스크 2: 프로젝트에 데이터 세트 추가
이 태스크를 미리 보려면 00:13에 시작하는 비디오를 보십시오.
이 학습서는 샘플 데이터 세트를 사용합니다. 프로젝트에 샘플 데이터 세트를 추가하려면 다음 단계를 수행하십시오.
자원 허브에서 UCI ML 저장소: 만성 신장 질환 데이터 세트 에 액세스하십시오.
미리보기를 클릭하십시오. 이 분석의 일부로서 이용 가능한 만성 신장 질환을 예측하는 데에 도움이 되는 3가지 중요한 인자가 있습니다. 시험 대상의 연령, 혈청 크레아티닌 검사 결과 및 당뇨병 시험 결과. 그리고 클래스 값은 환자가 이전에 신장 질환에 대해 진단되었는지를 나타냅니다.
프로젝트에 추가를 클릭하십시오.
목록에서 프로젝트를 선택하고 추가를 클릭하십시오.
프로젝트 보기를 클릭하십시오.
프로젝트의 자산 페이지에서 UCI ML Repository Chronic Kidney Disease Data Set.csv 파일을 찾으십시오.
진행 상태 확인
다음 이미지는 프로젝트의 자산 탭을 표시합니다.
태스크 3: SPSS Modeler 플로우 작성
이 태스크를 미리보려면 01:11에서 시작하는 비디오를 보십시오.
프로젝트에서 SPSS Modeler 플로우를 작성하려면 다음 단계를 수행하십시오.
딸깍 하는 소리 새 자산 > 시각적 흐름으로 모델 구축 .
플로우의 이름 및 설명을 입력하십시오.
런타임 정의의 경우 기본값 SPSS Modeler S 정의를 승인하십시오.
작성을 클릭하십시오. 플로우를 작성하는 데 사용할 플로우 편집기가 열립니다.
진행 상태 확인
다음 이미지는 플로우 편집기를 표시합니다.
태스크 4: SPSS Modeler 플로우에 노드 추가
이 태스크를 미리 보려면 01:31에 시작하는 비디오를 보십시오.
데이터를 로드한 후에는 데이터를 변환해야 합니다. 변환기 및 추정기를 캔버스로 끌어 데이터 소스에 연결하여 단순 플로우를 작성하십시오. 팔레트에서 다음 노드를 사용하십시오.
데이터 자산: 프로젝트에서 csv 파일 로드
파티션: 데이터를 훈련 및 테스트 세그먼트로 나누기
유형: 데이터 유형을 설정합니다. 이를 사용하여
class
필드를target
유형으로 지정하십시오.C5.0: 분류 알고리즘
분석: 모델을 보고 정확도 확인
테이블: 예측을 사용하여 데이터 미리보기
플로우를 작성하려면 다음 단계를 수행하십시오.
데이터 자산 노드를 추가하십시오.
가져오기 섹션에서 데이터 자산 노드를 캔버스로 끌어오십시오.
데이터 자산 노드를 두 번 클릭하여 데이터 세트를 선택하십시오.
데이터 자산 > UCI ML 저장소 만성 신장 질환 데이터 Set.csv를 선택하십시오.
선택을 클릭하십시오.
데이터 자산 특성을 봅니다.
저장 을 클릭하십시오.
파티션 노드를 추가하십시오.
필드 조작 섹션에서 파티션 노드를 캔버스로 끌어오십시오.
데이터 자산 노드를 파티션 노드에 연결하십시오.
파티션 노드를 두 번 클릭하여 해당 특성을 보십시오. 기본 파티션은 훈련을 위해 데이터의 절반을 분할하고 나머지 절반은 테스트를 위해 나눕니다.
저장 을 클릭하십시오.
유형 노드를 추가하십시오.
필드 조작 섹션에서 유형 노드를 캔버스로 끌어오십시오.
파티션 노드를 유형 노드에 연결하십시오.
유형 노드를 두 번 클릭하여 해당 특성을 보십시오. 유형 노드는 각 필드에 대한 측정 수준을 지정합니다. 이 소스 데이터 파일은 네 개의 다른 측정 수준(연속, 카테고리형, 명목, 순서 및 플래그)을 사용합니다.
class
필드를 검색하십시오. 각 필드에 대해 역할은 각 필드가 모델링에서 수행하는 파트를 표시합니다.class
역할을 대상으로 변경 - 예측하고 싶은 필드입니다.저장 을 클릭하십시오.
C5.0 분류 알고리즘 노드를 추가하십시오.
모델링 섹션에서 C5.0 노드를 캔버스로 끌어오십시오.
유형 노드를 C5.0 노드에 연결하십시오.
C5.0 노드를 두 번 클릭하여 해당 특성을 보십시오. 기본적으로 C5.0 알고리즘은 의사결정 트리를 빌드합니다. C5.0 모델은 최대 정보 증가를 제공하는 필드를 기반으로 샘플을 분할하여 작동합니다. 첫 번째 분할에 의해 정의된 각 하위 샘플은 일반적으로 다른 필드에 기반하여 다시 분할되며, 하위 샘플이 더 이상 분할될 수 없을 때까지 프로세스가 반복됩니다. 마지막으로 최하위 레벨 분할이 다시 검토되고 모델의 값에 크게 기여하지 않는 분할이 제거됩니다.
이 노드에 정의된 설정 사용을 선택하십시오.
대상의 경우 클래스를 선택하십시오.
입력 섹션에서 열 추가를 클릭하십시오.
필드 이름옆에 있는 선택란을 지우십시오.
age, sc, dm을 선택하십시오.
확인을 클릭하십시오.
저장 을 클릭하십시오.
진행 상태 확인
다음 이미지는 완료된 플로우를 표시합니다.
태스크 5: SPSS Modeler 플로우 실행 및 모델 세부사항 탐색
이 태스크를 미리 보려면 04:20에서 시작하는 비디오를 보십시오.
이제 플로우를 디자인했으므로 다음 단계에 따라 플로우를 실행하고 트리 다이어그램을 검사하여 의사결정 지점을 확인하십시오.
C5.0 노드를 마우스 오른쪽 단추로 클릭하고 실행을 선택하십시오. 플로우를 실행하면 캔버스에서 새 모델 너깃이 생성됩니다.
모델 너깃을 마우스 오른쪽 단추로 클릭하고 모델 보기를 선택하여 모델 세부사항을 보십시오.
모델 요약을 제공하는 모델 정보를 보십시오.
상위 결정 규칙을 클릭하십시오. 테이블은 다른 입력 필드의 값을 기반으로 하위 노드에 개별 레코드를 지정하는 데 사용된 일련의 규칙을 표시합니다.
기능 중요도를 클릭하십시오. 차트는 모델 추정 시 각 예측변수의 상대적 중요도를 표시합니다. 이로부터, 혈청 크레아티닌이 가장 중요한 인자이고, 당뇨병이 그 다음으로 가장 중요한 인자라는 것을 알 수 있습니다.
트리 다이어그램을 클릭하십시오. 동일한 모델이 각 의사결정 지점에 노드가 있는 트리 양식으로 표시됩니다.
데이터 세트의 모든 레코드에 대한 요약을 제공하는 맨 위 노드 위로 마우스를 이동하십시오. 데이터 세트에 있는 케이스의 거의 40%가 신장 질환으로 진단되지 않은 것으로 분류됩니다. 트리는 원인이 될 수 있는 요인에 대한 추가 단서를 제공할 수 있습니다.
맨 위 노드에서 발생한 두 분기는 혈청 크레아티닌에 의한 분할을 표시합니다.
혈청 크레아티닌이 1.25보다 큰 레코드를 표시하는 분기를 검토하십시오. 이 경우, 이들 환자의 100%가 양성 신장 질환 진단을 갖습니다.
혈청 크레아티닌이 1.25이하인 레코드를 표시하는 분기를 검토하십시오. 이들 환자의 거의 80%는 양성 신장질환 진단을 받지 않지만, 혈청 크레아티닌이 더 낮은 20%는 여전히 신장 질환으로 진단되었습니다.
sc<=1.250에서 파생된 분기에 주의하십시오. 이 분기는 당뇨병으로 분할됩니다.
낮은 혈청 크레아티닌 (sc<=1.250) 및 진단된 당뇨병 (dm = yes) 환자를 표시하는 분기를 검토하십시오. 이들 환자의 100% 는 또한 신장 질환을 앓고 있는 것으로 진단되었다.
낮은 혈청 크레아티닌 (sc<=1.250) 및 당뇨병이 없는 (dm = no) 환자를 표시하는 분기를 검토하십시오. 85%는 신장 질환으로 진단되지 않았지만, 이들 중 15%는 여전히 신장 질환으로 진단되었습니다.
dm = no에서 파생된 분기에 주의하십시오. 이 분기는 마지막 중요한 요인인 age로 분할됩니다.
14세 이하의 환자 (< = 14세) 를 표시하는 분기를 검토하십시오. 이 가지는 혈청 크레아티닌이 낮고 당뇨병이 없는 젊은 환자의 75% 가 신장 질환에 걸릴 위험이 있음을 보여준다.
14세이상 (14세이상) 환자를 표시하는 분기를 검토하십시오. 이 가지는 14세 이상의 환자 중 혈청 크레아티닌이 낮고 당뇨병이 없는 환자의 12% 만이 신장 질환을 앓을 위험이 있음을 보여준다.
모델 세부사항을 닫으십시오.
진행 상태 확인
다음 이미지는 트리 다이어그램을 표시합니다.
태스크 6: 모델 평가
이 태스크를 미리보려면 07:24에서 시작하는 비디오를 보십시오.
분석 및 테이블 노드를 사용하여 모델을 평가하려면 다음 단계를 수행하십시오.
출력 섹션에서 분석 노드를 캔버스로 끌어오십시오.
모델 너깃을 분석 노드에 연결하십시오.
분석 노드를 마우스 오른쪽 단추로 클릭하고 실행을 선택하십시오.
출력 패널에서 분석을 여십시오. 이는 모델이 신장 질환 진단을 거의 95%의 시간 동안 올바르게 예측했음을 표시합니다. 분석을 닫으십시오.
(선택사항) 도구 모음에서 다운로드 아이콘을 클릭하여 모델을 .str 파일로 저장하십시오.
분석 노드를 마우스 오른쪽 단추로 클릭하고 분기를 모델로 저장을 선택하십시오.
모델 이름의 경우
Kidney Disease Analysis
을(를) 입력하십시오.저장 을 클릭하십시오.
닫기를 클릭하십시오.
출력 섹션에서 테이블 노드를 캔버스로 끌어오십시오.
모델 너깃을 테이블 노드에 연결하십시오.
테이블 노드를 마우스 오른쪽 단추로 클릭하고 데이터 미리보기를 선택하십시오.
미리보기가 표시되면 마지막 두 열로 스크롤하십시오. $C-Class 열은 신장 질환의 예측을 포함하고, $CC-Class 열은 해당 예측의 신뢰도 점수를 표시합니다.
미리 보기를 닫으십시오.
진행 상태 확인
다음 이미지는 예측이 있는 미리보기 테이블을 표시합니다.
태스크 7: 새 데이터로 모델 배치 및 테스트
이 태스크를 미리 보려면 09:10에 시작하는 비디오를 보십시오.
마지막으로 다음 단계에 따라 이 모델을 배치하고 새 데이터로 결과를 예측하십시오.
프로젝트의 자산 탭으로 돌아가십시오.
모델 섹션을 클릭하고 Kidney Disease Analysis 모델을 여십시오.
배치 영역으로 승격 아이콘 을 클릭하십시오.
기존 배치 영역을 선택하십시오. 배치 공간이 없는 경우 새 배치 공간을 작성할 수 있습니다.
영역 이름을 제공하십시오.
스토리지 서비스를 선택하십시오.
기계 학습 서비스를 선택하십시오.
작성을 클릭하십시오.
닫기를 클릭하십시오.
프로모션 후 공간의 모델로 이동을 선택하십시오.
승격을 클릭하십시오.
배치 공간 내에 모델이 표시되면 새 배치를 클릭하십시오.
배치 유형으로 온라인을 선택하십시오.
배치의 이름을 지정하십시오.
작성을 클릭하십시오.
배치가 완료되면 배치 이름을 클릭하여 배치 세부사항 페이지를 보십시오.
테스트 탭으로 이동하십시오. JSON 코드로 테스트 또는 형식으로 테스트의 두 가지 방식으로 배치 세부사항 페이지에서 배치된 모델을 테스트할 수 있습니다.
JSON 입력을 클릭한 후 다음 테스트 데이터를 복사하고 붙여넣어 기존 JSON 텍스트를 대체하십시오.
{ "input_data": [ { "fields": [ "age", "bp", "sg", "al", "su", "rbc", "pc", "pcc", "ba", "bgr", "bu", "sc", "sod", "pot", "hemo", "pcv", "wbcc", "rbcc", "htn", "dm", "cad", "appet", "pe", "ane", "class" ], "values": [ [ "62", "80", "1.01", "2", "3", "normal", "normal", "notpresent", "notpresent", "423", "53", "1.8", "", "", "9.6", "31", "7500", "", "no", "yes", "no", "poor", "no", "yes", "ckd" ] ] } ] }
예측을 클릭하여 당뇨가 있는 62세와 혈청 크레아티닌 비율이 1.8인지 여부를 신장 질환으로 진단할 수 있는지 여부를 예측하십시오. 결과 예측은 이 환자가 신장 질환 진단의 가능성이 높다는 것을 나타냅니다.
진행 상태 확인
다음 이미지는 예측이 있는 모델 배치의 테스트 탭을 표시합니다.
다음 단계
이제 차후 분석을 위해 이 데이터 세트를 사용할 수 있습니다. 예를 들어, 다음과 같은 태스크를 수행할 수 있습니다.
추가 자원
자세한 정보: SPSS Modeler 학습서
다음과 같은 다른 방법을 사용하여 모델을 빌드하십시오.
추가 비디오 보기
샘플 데이터 세트 및 노트북을 찾아 자원 허브 에서 모델을 빌드하는 실제 경험을 얻을 수 있습니다.
상위 주제: 빠른 시작 학습서