약물 치료에 대한 그래프 살펴보기
튜토리얼 미리보기
비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 나오는 사용자 인터페이스와 약간의 차이가 있을 수 있습니다. 이 비디오는 글로 된 튜토리얼의 보조 자료로 제작되었습니다. 이 비디오는 이 문서에서 다루는 개념과 작업을 시각적으로 배울 수 있는 방법을 제공합니다.
튜토리얼을 사용해 보세요
이 학습서에서는 다음 태스크를 완료합니다.
모델러 흐름 및 데이터 세트 샘플
이 튜토리얼에서는 샘플 프로젝트의 약물 치료 - 탐색 그래프 플로우를 사용합니다. 사용된 데이터 파일은 drug1n.csv. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.

데이터 필드 | 설명 |
---|---|
Age |
환자의 연령(숫자) |
Sex |
M 또는 F |
BP |
혈압: HIGH , NORMAL 또는 LOW |
Cholesterol |
혈중 콜레스테롤: NORMAL 또는 HIGH |
Na |
혈액 내 나트륨 농도 |
K |
혈액 내 칼륨 농도 |
Drug |
환자가 반응한 처방 약물 |
작업 1: 샘플 프로젝트 열기
샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 샘플 프로젝트가 아직 없다면, 튜토리얼 항목을 참고하여 샘플 프로젝트를 만드십시오. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:
- watsonx 의 탐색 메뉴 (
)에서 프로젝트(Projects) > 모든 프로젝트 보기(View all Projects)를 선택합니다.
- SPSS Modeler 프로젝트를 클릭합니다.
- 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.
진행 상황 확인
다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.
작업 2: 데이터 자산 검토
약물 치료 - 탐색 그래프에는 여러 노드가 포함되어 있습니다. 데이터 자산 노드를 검토하려면 다음 단계를 따르세요:
- 자산 탭에서 약물 치료 - 탐색 그래프 모델러 플로우를 열고 캔버스가 로드될 때까지 기다립니다.
- drug1n.csv 노드를 더블클릭합니다. 이 노드는 프로젝트의 drug1n.csv 파일을 가리키는 데이터 에셋 노드입니다.
- 파일 형식 속성을 검토합니다.
- 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.
진행 상황 확인
다음 이미지는 데이터 자산 노드를 보여줍니다. 이제 배포 및 데이터 감사 차트를 살펴볼 준비가 되었습니다.

작업 3: 배포 및 데이터 감사 차트 살펴보기
데이터 마이닝 동안, 시각적인 요약값을 작성하여 데이터를 탐색하는 것이 유용한 경우가 종종 있습니다. SPSS Modeler 요약하려는 데이터 유형에 따라 선택할 수 있는 다양한 유형의 차트를 제공합니다. 예를 들어, 각 약물에 반응한 환자의 비율을 확인하려면 약물 유형(분포) 노드를 탐색합니다. 다음 단계에 따라 몇 가지 차트를 살펴보세요:
- 약물 유형(배포) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 취소를 클릭하십시오.
- 약물 유형(배포) 노드 위로 마우스를 가져간 다음 실행 아이콘 '
'을 클릭합니다.
- 출력 및 모델 창에서 약물 유형 출력을 클릭하여 결과를 확인합니다.

차트를 통해 데이터의 형태를 확인할 수 있습니다. 이는 환자가 약물 Y
에 가장 자주 반응하고 약물 B
및 C
에 가장 적게 반응한다는 것을 보여줍니다.
또는 7개 필드(데이터 감사) 노드를 첨부하고 실행하여 모든 필드에 대한 분포와 히스토그램을 한 번에 볼 수 있습니다.
- 데이터 자산 노드 뒤에 있는 7개의 필드(데이터 감사) 출력 노드를 두 번 클릭합니다.
- 7 필드(데이터 감사) 노드 위로 마우스를 가져간 후 실행 아이콘 '
'을 클릭합니다.
- 출력 및 모델 창에서 7개의 필드(데이터 감사) 출력을 클릭하여 결과를 확인합니다.

진행 상황 확인
다음 이미지는 플로우를 보여줍니다. 이제 분산형 차트를 만들고 탐색할 준비가 되었습니다.

작업 4: 분산형 차트 만들기 및 탐색하기
대상 변수인 ' Drug
'에 영향을 줄 수 있는 요인을 확인할 수 있습니다. 연구원으로서 혈액 내의 나트륨 및 칼륨 농도가 중요 요인인 것을 알고 있습니다. 이러한 농도는 모두 숫자 값이므로 약물 범주를 색상 오버레이로 사용하는 나트륨 대 칼륨의 분산형 차트를 만들 수 있습니다. 분산형 차트를 만들고 탐색하려면 다음 단계를 따르세요:
- 팔레트의 그래프 섹션에서 플롯 노드를 캔버스로 끌어다 놓습니다.
- 노드 위로 마우스를 가져가 제목 수정 버튼을 클릭하고 이름을 ' Na v로 바꿉니다. K.
- Plot 노드를 drug1n.csv 데이터 자산 노드에 연결합니다.
- ' 나 v를 더블클릭합니다. K(플롯) 노드를 클릭하여 해당 속성을 편집합니다.
- 플롯 섹션에서 '
Na
'을 X 필드로, 'K
'를 Y 필드로 선택하고 오버레이 섹션에서 'Drug
'을 색상 필드로 선택합니다. - 저장 을 클릭하십시오.
- ' Na v. 위로 마우스를 가져갑니다. K(플롯) 노드를 클릭하고 실행 아이콘 '
' 를 클릭합니다.
- 출력 및 모델 창에서 ' 나 v를 클릭합니다. K '을 출력하여 결과를 확인합니다.
플롯에는 임계값이 명확하게 표시됩니다. 임계값보다 높은 값의 경우, 약물 ' Y
'이 항상 올바른 약물입니다. 그리고 임계값보다 작은 값의 경우 약물 ' Y
'은 올바른 약물이 아닙니다. 이 임계값은 나트륨(Na
)과 칼륨(K
')의 비율입니다.
진행 상황 확인
다음 이미지는 분산형 차트를 보여줍니다. 이제 웹 차트를 만들고 탐색할 준비가 되었습니다.

작업 5: 웹 차트 만들기 및 탐색
많은 데이터 필드가 범주형이기 때문에 서로 다른 범주 간의 연관성을 매핑하는 웹 차트를 그려볼 수도 있습니다. 웹 차트를 탐색하려면 다음 단계를 따르세요:
- 팔레트의 그래프 섹션에서 웹 노드를 캔버스로 드래그하여 drug1n.csv 데이터 자산 노드에 연결합니다.
- 웹 노드를 두 번 클릭하여 해당 속성을 편집합니다.
- 필드 섹션에서 열 추가를 클릭합니다. '
BP
'(혈압) 및 'Drug
' 열을 선택합니다. - 저장 을 클릭하십시오.
- 웹 노드 위로 마우스를 가져간 후 실행 아이콘 '
'을 클릭합니다
- 출력 및 모델 창에서 웹 출력을 클릭하여 결과를 확인합니다.
줄거리에서 볼 때, 약물 ' Y
'은 세 가지 혈압 수준 모두와 관련이 있는 것으로 보입니다. 이 결과는 놀라운 일이 아닙니다. 이미 ' Y
'이라는 약물이 가장 적합한 상황을 결정했기 때문입니다.
하지만 Y
를 무시하고 다른 약물에 초점을 맞추면, 약물 A
와 B
또한 고혈압과 관련이 있다는 것을 알 수 있습니다. 그리고 약물 C
와 X
는 저혈압과 관련이 있습니다. 그리고 정상 혈압은 약물 X
와 관련이 있습니다. 하지만 특정 환자에 대해 ' A
'과 ' B
' 또는 ' C
'과 ' X
' 중 어떤 약물을 선택해야 하는지 아직 모르는 경우가 있습니다. 이 경우 모델링이 도움이 될 수 있습니다.
진행 상황 확인
다음 이미지는 웹 플롯을 보여줍니다. 이제 고급 비주얼리제이션을 탐색할 준비가 되었습니다.

작업 6: 고급 비주얼리제이션 탐색
이전 섹션에서는 다양한 유형의 그래프 노드를 사용했습니다. 데이터를 탐색하는 다른 방법은 고급 시각화 기능을 사용하는 것입니다. 고급 차트를 만들고 탐색하려면 다음 단계를 따르세요:
- 팔레트의 그래프 섹션에서 차트 노드를 캔버스로 드래그하여 drug1n.csv 데이터 자산 노드에 연결합니다.
- 차트 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 차트 작성기 시작 버튼을 클릭합니다.
여기에서 고급 차트를 선택하고 생성하여 다양한 관점에서 데이터를 탐색하고 데이터 내의 패턴, 연결 및 관계를 파악할 수 있습니다. 모델러 흐름으로 돌아가기 전에 몇 가지 차트를 만들어 실험해 보세요.
진행 상황 확인
다음 이미지는 3D 차트 예시입니다. 이제 파생 노드를 탐색할 준비가 되었습니다.

작업 7: 파생 노드 탐색
과제 4의 산점도에서 보았듯이 나트륨과 칼륨의 비율은 약물 Y의 사용 시기를 예측하는 것으로 보입니다. 각 레코드에 대해 이 비율의 값이 포함된 필드를 도출할 수 있습니다. 나중에 다섯 가지의 약물 중 각 약물을 사용할 시기를 예측하는 모델을 작성할 때 이 필드가 유용할 수 있습니다.
파생 노드를 탐색하려면 다음 단계를 따르세요:
- Na_to_K(파생) 노드를 두 번 클릭하여 해당 속성을 편집합니다.
- 표현식 섹션을 살펴보세요. Na/K는 나트륨 값을 칼륨 값으로 나누면 새로운 면적을 구할 수 있기 때문에 나온 표현입니다.계산기 아이콘 아이콘을 클릭하여 표현식을 생성할 수도 있습니다.
표현식 작성기를 여는 방법; 함수, 피연산자, 필드 및 해당 값의 내장 목록을 사용하여 대화형으로 표현식을 만드는 방법입니다.
- 취소를 클릭하여 속성으로 돌아가려면 취소를 클릭하고 다시 취소를 클릭하여 흐름으로 돌아갑니다.
- 팔레트의 그래프 섹션에서 히스토그램 노드를 캔버스로 드래그하여 Na_to_K(파생) 노드에 연결합니다.
- 히스토그램 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 히스토그램 노드 속성에서 Na_to_K를 플롯할 필드로, Drug를 색상 오버레이 필드로 지정합니다.
- 저장 을 클릭하십시오.
- 히스토그램 노드 위로 마우스를 가져간 후 실행 아이콘 '
'을 클릭합니다.
- 출력 및 모델 창에서 히스토그램 출력을 클릭하여 결과를 확인합니다.
차트에 따르면 ' Na_to_K
값이 약 15 이상이면 ' Y
' 약물이 선택 약물이라는 결론을 내릴 수 있습니다.
진행 상황 확인
다음 이미지는 히스토그램을 보여줍니다. 이제 필터 및 유형 노드를 탐색할 준비가 되었습니다.

작업 8: 필터 및 유형 노드 살펴보기
데이터를 탐색하고 조작함으로써 몇 가지 가설을 세울 수 있습니다. 혈압과 마찬가지로 혈액 내 나트륨 대 칼륨의 비율이 약물 선택에 영향을 미치는 것처럼 보입니다. 그러나 아직은 모든 관계를 완전히 설명할 수 없습니다. 모델링을 통해 몇 가지 해답을 얻을 수 있습니다. 먼저 다음 단계에 따라 필터 및 유형 노드를 탐색합니다:
- 필드 삭제(필터) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 파생 필드 '
Na_to_K
'이 사용되므로 원래 필드 'Na
'와 'K
'은 필터링되므로 모델링 알고리즘에서 두 번 사용되지 않습니다.그림 4. filter 노드 특성 - 취소를 클릭하십시오.
- 유형 정의(유형) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
- 유형 노드를 사용하면 사용 중인 필드의 유형과 결과를 예측하는 데 사용되는 방식을 나타낼 수 있습니다. '
Drug
필드의 역할이 Target으로 설정되어 있어 'Drug
'가 예측하려는 필드라는 것을 알 수 있습니다. 다른 필드의 역할은 예측자로 사용되도록 입력으로 설정되어 있습니다.그림 5. type 노드 특성 - 취소를 클릭하십시오.
진행 상황 확인
다음 이미지는 플로우를 보여줍니다. 이제 모델을 생성할 준비가 되었습니다.

작업 9: 모델 생성
C5.0 노드를 사용하여 모델을 생성하려면 다음 단계를 따르세요:
- Drug (C5.0) 노드 위로 마우스를 가져가 실행 아이콘 '
'을 클릭합니다.
- 출력 및 모델 창에서 약물 모델을 클릭하여 결과를 확인합니다.
트리 다이어그램은 C5.0 노드에서 생성된 규칙 집합을 트리 형식으로 표시합니다. 이제 퍼즐의 빠진 조각을 볼 수 있습니다. Na-to-K 비율이
14.829
미만이고 혈압이 높은 사람의 경우 나이가 약물 선택을 결정합니다. 저혈압인 사람의 경우, 콜레스테롤 수준이 최선의 예측변수인 것처럼 보입니다.트리의 노드 위로 마우스를 이동하면 각 혈압 카테고리의 케이스 수 및 케이스의 신뢰도 백분율과 같은 세부사항을 볼 수 있습니다.
진행 상황 확인
다음 이미지는 트리 다이어그램을 보여줍니다. 이제 분석 노드를 만들 준비가 되었습니다.

작업 10: 분석 노드 만들기
분석 노드를 사용하여 모델의 정확도를 평가하려면 다음 단계를 따르세요:
- 팔레트의 출력 섹션에서 분석 노드를 캔버스로 드래그하여 약물(C5.0) 모델 너겟에 연결합니다.
- 분석 노드 위로 마우스를 가져가서 실행 아이콘 '
'을 클릭합니다
- ' 출력 및 모델 창에서 ' 약물] 분석 ' 출력을 클릭하여 결과를 확인합니다.
분석 노드 출력은 이 인공 데이터 세트에서 모델이 데이터 세트의 모든 레코드에 대해 약물 선택을 올바르게 예측했음을 보여줍니다. 실제 데이터 집합을 사용하면 100% 정확도를 볼 수는 없지만 분석 노드를 사용하여 모델이 특정 애플리케이션에 적합한지 여부를 판단할 수 있습니다.
진행 상황 확인
다음 이미지는 분석 결과를 보여줍니다.

요약
이 예에서는 약물 치료에 대한 그래프를 만들고 탐색하여 향후 같은 질병을 앓는 환자에게 적합한 약물을 찾는 데 사용하는 방법을 보여주었습니다.
다음 단계
이제 다른 SPSS® Modeler 튜토리얼을 시도해 볼 준비가 되었습니다.