0 / 0

약물 치료에 대한 그래프 살펴보기

마지막 업데이트 날짜: 2025년 2월 12일
약물 치료에 대한 그래프 살펴보기
이 튜토리얼에서는 의학 연구자가 연구를 위해 컴파일하고 시각화하는 방법에 대한 예를 제공합니다. 검시관은 모두 같은 질병을 앓고 있는 일련의 환자들에 대한 데이터를 수집했습니다. 치료 과정 중에 각 환자는 다섯 가지 약물 치료 중 하나에 반응했습니다. 작업 중 일부는 데이터 마이닝을 사용하여 동일한 질병을 앓는 미래의 환자에게 어느 약물이 적합한지 찾는 것입니다.

튜토리얼 미리보기

비디오 보기 비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 나오는 사용자 인터페이스와 약간의 차이가 있을 수 있습니다. 이 비디오는 글로 된 튜토리얼의 보조 자료로 제작되었습니다. 이 비디오는 이 문서에서 다루는 개념과 작업을 시각적으로 배울 수 있는 방법을 제공합니다.

튜토리얼을 사용해 보세요

이 학습서에서는 다음 태스크를 완료합니다.

모델러 흐름 및 데이터 세트 샘플

이 튜토리얼에서는 샘플 프로젝트의 약물 치료 - 탐색 그래프 플로우를 사용합니다. 사용된 데이터 파일은 drug1n.csv. 다음 이미지는 샘플 모델러의 흐름을 보여줍니다.

그림 1. 모델러 흐름 샘플
모델러 흐름 샘플

이 예제에서 사용되는 데이터 필드는 다음과 같습니다:
데이터 필드 설명
Age 환자의 연령(숫자)
Sex M 또는 F
BP 혈압: HIGH, NORMAL 또는 LOW
Cholesterol 혈중 콜레스테롤: NORMAL 또는 HIGH
Na 혈액 내 나트륨 농도
K 혈액 내 칼륨 농도
Drug 환자가 반응한 처방 약물

작업 1: 샘플 프로젝트 열기

샘플 프로젝트에는 여러 데이터 세트와 샘플 모델러 흐름이 포함되어 있습니다. 샘플 프로젝트가 아직 없다면, 튜토리얼 항목을 참고하여 샘플 프로젝트를 만드십시오. 그런 다음 다음 단계에 따라 샘플 프로젝트를 엽니다:

  1. watsonx탐색 메뉴 ( 탐색 메뉴 )에서 프로젝트(Projects) > 모든 프로젝트 보기(View all Projects)를 선택합니다.
  2. SPSS Modeler 프로젝트를 클릭합니다.
  3. 자산 탭을 클릭하면 데이터 세트와 모델러 흐름을 볼 수 있습니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 프로젝트 자산 탭을 보여줍니다. 이제 이 튜토리얼과 관련된 샘플 모델러 플로우로 작업할 준비가 되었습니다.

샘플 프로젝트

맨 위로 돌아가기

작업 2: 데이터 자산 검토

약물 치료 - 탐색 그래프에는 여러 노드가 포함되어 있습니다. 데이터 자산 노드를 검토하려면 다음 단계를 따르세요:

  1. 자산 탭에서 약물 치료 - 탐색 그래프 모델러 플로우를 열고 캔버스가 로드될 때까지 기다립니다.
  2. drug1n.csv 노드를 더블클릭합니다. 이 노드는 프로젝트의 drug1n.csv 파일을 가리키는 데이터 에셋 노드입니다.
  3. 파일 형식 속성을 검토합니다.
  4. 선택 사항입니다: 데이터 미리 보기를 클릭하여 전체 데이터 집합을 확인합니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 데이터 자산 노드를 보여줍니다. 이제 배포 및 데이터 감사 차트를 살펴볼 준비가 되었습니다.

데이터 자산

맨 위로 돌아가기

작업 3: 배포 및 데이터 감사 차트 살펴보기

데이터 마이닝 동안, 시각적인 요약값을 작성하여 데이터를 탐색하는 것이 유용한 경우가 종종 있습니다. SPSS Modeler 요약하려는 데이터 유형에 따라 선택할 수 있는 다양한 유형의 차트를 제공합니다. 예를 들어, 각 약물에 반응한 환자의 비율을 확인하려면 약물 유형(분포) 노드를 탐색합니다. 다음 단계에 따라 몇 가지 차트를 살펴보세요:

  1. 약물 유형(배포) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
  2. 취소를 클릭하십시오.
  3. 약물 유형(배포) 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
  4. 출력 및 모델 창에서 약물 유형 출력을 클릭하여 결과를 확인합니다.
그림 2. 출력 보기: 약물 유형
출력 보기: 약물 유형

차트를 통해 데이터의 형태를 확인할 수 있습니다. 이는 환자가 약물 Y에 가장 자주 반응하고 약물 BC에 가장 적게 반응한다는 것을 보여줍니다.

또는 7개 필드(데이터 감사) 노드를 첨부하고 실행하여 모든 필드에 대한 분포와 히스토그램을 한 번에 볼 수 있습니다.

  1. 데이터 자산 노드 뒤에 있는 7개의 필드(데이터 감사) 출력 노드를 두 번 클릭합니다.
  2. 7 필드(데이터 감사) 노드 위로 마우스를 가져간 후 실행 아이콘 ' '을 클릭합니다.
  3. 출력 및 모델 창에서 7개의 필드(데이터 감사) 출력을 클릭하여 결과를 확인합니다.
그림 3. 출력 보기: 7개 필드]의 데이터 감사
데이터 감사 차트

체크포인트 아이콘 진행 상황 확인

다음 이미지는 플로우를 보여줍니다. 이제 분산형 차트를 만들고 탐색할 준비가 되었습니다.

출력 및 모델 창이 표시된 모델러 흐름

맨 위로 돌아가기

작업 4: 분산형 차트 만들기 및 탐색하기

대상 변수인 ' Drug'에 영향을 줄 수 있는 요인을 확인할 수 있습니다. 연구원으로서 혈액 내의 나트륨 및 칼륨 농도가 중요 요인인 것을 알고 있습니다. 이러한 농도는 모두 숫자 값이므로 약물 범주를 색상 오버레이로 사용하는 나트륨 대 칼륨의 분산형 차트를 만들 수 있습니다. 분산형 차트를 만들고 탐색하려면 다음 단계를 따르세요:

  1. 팔레트의 그래프 섹션에서 플롯 노드를 캔버스로 끌어다 놓습니다.
  2. 노드 위로 마우스를 가져가 제목 수정 버튼을 클릭하고 이름을 ' Na v로 바꿉니다. K.
  3. Plot 노드를 drug1n.csv 데이터 자산 노드에 연결합니다.
  4. ' 나 v를 더블클릭합니다. K(플롯) 노드를 클릭하여 해당 속성을 편집합니다.
  5. 플롯 섹션에서 ' Na '을 X 필드로, ' K '를 Y 필드로 선택하고 오버레이 섹션에서 ' Drug '을 색상 필드로 선택합니다.
  6. 저장 을 클릭하십시오.
  7. ' Na v. 위로 마우스를 가져갑니다. K(플롯) 노드를 클릭하고 실행 아이콘 ' ' 를 클릭합니다.
  8. 출력 및 모델 창에서 ' 나 v를 클릭합니다. K '을 출력하여 결과를 확인합니다.

플롯에는 임계값이 명확하게 표시됩니다. 임계값보다 높은 값의 경우, 약물 ' Y '이 항상 올바른 약물입니다. 그리고 임계값보다 작은 값의 경우 약물 ' Y '은 올바른 약물이 아닙니다. 이 임계값은 나트륨(Na)과 칼륨(K')의 비율입니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 분산형 차트를 보여줍니다. 이제 웹 차트를 만들고 탐색할 준비가 되었습니다.

약물 분포의 산점도

맨 위로 돌아가기

작업 5: 웹 차트 만들기 및 탐색

많은 데이터 필드가 범주형이기 때문에 서로 다른 범주 간의 연관성을 매핑하는 웹 차트를 그려볼 수도 있습니다. 웹 차트를 탐색하려면 다음 단계를 따르세요:

  1. 팔레트의 그래프 섹션에서 노드를 캔버스로 드래그하여 drug1n.csv 데이터 자산 노드에 연결합니다.
  2. 노드를 두 번 클릭하여 해당 속성을 편집합니다.
  3. 필드 섹션에서 열 추가를 클릭합니다. ' BP '(혈압) 및 ' Drug ' 열을 선택합니다.
  4. 저장 을 클릭하십시오.
  5. 노드 위로 마우스를 가져간 후 실행 아이콘 ' '을 클릭합니다
  6. 출력 및 모델 창에서 출력을 클릭하여 결과를 확인합니다.

줄거리에서 볼 때, 약물 ' Y '은 세 가지 혈압 수준 모두와 관련이 있는 것으로 보입니다. 이 결과는 놀라운 일이 아닙니다. 이미 ' Y '이라는 약물이 가장 적합한 상황을 결정했기 때문입니다.

하지만 Y를 무시하고 다른 약물에 초점을 맞추면, 약물 AB 또한 고혈압과 관련이 있다는 것을 알 수 있습니다. 그리고 약물 CX는 저혈압과 관련이 있습니다. 그리고 정상 혈압은 약물 X와 관련이 있습니다. 하지만 특정 환자에 대해 ' A '과 ' B ' 또는 ' C '과 ' X' 중 어떤 약물을 선택해야 하는지 아직 모르는 경우가 있습니다. 이 경우 모델링이 도움이 될 수 있습니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 웹 플롯을 보여줍니다. 이제 고급 비주얼리제이션을 탐색할 준비가 되었습니다.

약물 대 혈압 웹 그래프

맨 위로 돌아가기

작업 6: 고급 비주얼리제이션 탐색

이전 섹션에서는 다양한 유형의 그래프 노드를 사용했습니다. 데이터를 탐색하는 다른 방법은 고급 시각화 기능을 사용하는 것입니다. 고급 차트를 만들고 탐색하려면 다음 단계를 따르세요:

  1. 팔레트의 그래프 섹션에서 차트 노드를 캔버스로 드래그하여 drug1n.csv 데이터 자산 노드에 연결합니다.
  2. 차트 노드를 두 번 클릭하여 해당 속성을 확인합니다.
  3. 차트 작성기 시작 버튼을 클릭합니다.

    여기에서 고급 차트를 선택하고 생성하여 다양한 관점에서 데이터를 탐색하고 데이터 내의 패턴, 연결 및 관계를 파악할 수 있습니다. 모델러 흐름으로 돌아가기 전에 몇 가지 차트를 만들어 실험해 보세요.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 3D 차트 예시입니다. 이제 파생 노드를 탐색할 준비가 되었습니다.

고급 시각화

맨 위로 돌아가기

작업 7: 파생 노드 탐색

과제 4의 산점도에서 보았듯이 나트륨과 칼륨의 비율은 약물 Y의 사용 시기를 예측하는 것으로 보입니다. 각 레코드에 대해 이 비율의 값이 포함된 필드를 도출할 수 있습니다. 나중에 다섯 가지의 약물 중 각 약물을 사용할 시기를 예측하는 모델을 작성할 때 이 필드가 유용할 수 있습니다.

파생 노드를 탐색하려면 다음 단계를 따르세요:

  1. Na_to_K(파생) 노드를 두 번 클릭하여 해당 속성을 편집합니다.
  2. 표현식 섹션을 살펴보세요. Na/K는 나트륨 값을 칼륨 값으로 나누면 새로운 면적을 구할 수 있기 때문에 나온 표현입니다.

    계산기 아이콘 아이콘을 클릭하여 표현식을 생성할 수도 있습니다. 실행 아이콘 표현식 작성기를 여는 방법; 함수, 피연산자, 필드 및 해당 값의 내장 목록을 사용하여 대화형으로 표현식을 만드는 방법입니다.
  3. 취소를 클릭하여 속성으로 돌아가려면 취소를 클릭하고 다시 취소를 클릭하여 흐름으로 돌아갑니다.
  4. 팔레트의 그래프 섹션에서 히스토그램 노드를 캔버스로 드래그하여 Na_to_K(파생) 노드에 연결합니다.
  5. 히스토그램 노드를 두 번 클릭하여 해당 속성을 확인합니다.
  6. 히스토그램 노드 속성에서 Na_to_K를 플롯할 필드로, Drug를 색상 오버레이 필드로 지정합니다.
  7. 저장 을 클릭하십시오.
  8. 히스토그램 노드 위로 마우스를 가져간 후 실행 아이콘 ' '을 클릭합니다.
  9. 출력 및 모델 창에서 히스토그램 출력을 클릭하여 결과를 확인합니다.

차트에 따르면 ' Na_to_K 값이 약 15 이상이면 ' Y ' 약물이 선택 약물이라는 결론을 내릴 수 있습니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 히스토그램을 보여줍니다. 이제 필터유형 노드를 탐색할 준비가 되었습니다.

히스토그램 노드

맨 위로 돌아가기

작업 8: 필터 및 유형 노드 살펴보기

데이터를 탐색하고 조작함으로써 몇 가지 가설을 세울 수 있습니다. 혈압과 마찬가지로 혈액 내 나트륨 대 칼륨의 비율이 약물 선택에 영향을 미치는 것처럼 보입니다. 그러나 아직은 모든 관계를 완전히 설명할 수 없습니다. 모델링을 통해 몇 가지 해답을 얻을 수 있습니다. 먼저 다음 단계에 따라 필터유형 노드를 탐색합니다:

  1. 필드 삭제(필터) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
  2. 파생 필드 ' Na_to_K '이 사용되므로 원래 필드 ' Na '와 ' K '은 필터링되므로 모델링 알고리즘에서 두 번 사용되지 않습니다.

    그림 4. filter 노드 특성
    filter 노드 특성
  3. 취소를 클릭하십시오.
  4. 유형 정의(유형) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
  5. 유형 노드를 사용하면 사용 중인 필드의 유형과 결과를 예측하는 데 사용되는 방식을 나타낼 수 있습니다. ' Drug 필드의 역할이 Target으로 설정되어 있어 ' Drug '가 예측하려는 필드라는 것을 알 수 있습니다. 다른 필드의 역할은 예측자로 사용되도록 입력으로 설정되어 있습니다.

    그림 5. type 노드 특성
    type 노드 특성
  6. 취소를 클릭하십시오.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 플로우를 보여줍니다. 이제 모델을 생성할 준비가 되었습니다.

출력 및 모델 창이 표시된 모델러 흐름

맨 위로 돌아가기

작업 9: 모델 생성

C5.0 노드를 사용하여 모델을 생성하려면 다음 단계를 따르세요:

  1. Drug (C5.0) 노드 위로 마우스를 가져가 실행 아이콘 ' '을 클릭합니다.
  2. 출력 및 모델 창에서 약물 모델을 클릭하여 결과를 확인합니다.

    트리 다이어그램은 C5.0 노드에서 생성된 규칙 집합을 트리 형식으로 표시합니다. 이제 퍼즐의 빠진 조각을 볼 수 있습니다. Na-to-K 비율이 14.829 미만이고 혈압이 높은 사람의 경우 나이가 약물 선택을 결정합니다. 저혈압인 사람의 경우, 콜레스테롤 수준이 최선의 예측변수인 것처럼 보입니다.

    트리의 노드 위로 마우스를 이동하면 각 혈압 카테고리의 케이스 수 및 케이스의 신뢰도 백분율과 같은 세부사항을 볼 수 있습니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 트리 다이어그램을 보여줍니다. 이제 분석 노드를 만들 준비가 되었습니다.

트리 다이어그램 출력

맨 위로 돌아가기

작업 10: 분석 노드 만들기

분석 노드를 사용하여 모델의 정확도를 평가하려면 다음 단계를 따르세요:

  1. 팔레트의 출력 섹션에서 분석 노드를 캔버스로 드래그하여 약물(C5.0) 모델 너겟에 연결합니다.
  2. 분석 노드 위로 마우스를 가져가서 실행 아이콘 ' '을 클릭합니다
  3. ' 출력 및 모델 창에서 ' 약물] 분석 ' 출력을 클릭하여 결과를 확인합니다.

    분석 노드 출력은 이 인공 데이터 세트에서 모델이 데이터 세트의 모든 레코드에 대해 약물 선택을 올바르게 예측했음을 보여줍니다. 실제 데이터 집합을 사용하면 100% 정확도를 볼 수는 없지만 분석 노드를 사용하여 모델이 특정 애플리케이션에 적합한지 여부를 판단할 수 있습니다.

체크포인트 아이콘 진행 상황 확인

다음 이미지는 분석 결과를 보여줍니다.

분석 출력

맨 위로 돌아가기

요약

이 예에서는 약물 치료에 대한 그래프를 만들고 탐색하여 향후 같은 질병을 앓는 환자에게 적합한 약물을 찾는 데 사용하는 방법을 보여주었습니다.

다음 단계

이제 다른 SPSS® Modeler 튜토리얼을 시도해 볼 준비가 되었습니다.