이 튜토리얼에서는 의학 연구자가 연구를 위해 컴파일하고 시각화하는 방법에 대한 예를 제공합니다. 검시관은 모두 같은 질병을 앓고 있는 일련의 환자들에 대한 데이터를 수집했습니다. 치료 과정 중에 각 환자는 다섯 가지 약물 치료 중 하나에 반응했습니다. 작업 중 일부는 데이터 마이닝을 사용하여 동일한 질병을 앓는 미래의 환자에게 어느 약물이 적합한지 찾는 것입니다.
튜토리얼 미리보기
Copy link to section
비디오를 시청하면 이 학습서의 단계를 미리 볼 수 있습니다. 동영상에 나오는 사용자 인터페이스와 약간의 차이가 있을 수 있습니다. 이 비디오는 글로 된 튜토리얼의 보조 자료로 제작되었습니다. 이 비디오는 이 문서에서 다루는 개념과 작업을 시각적으로 배울 수 있는 방법을 제공합니다.
데이터 마이닝 동안, 시각적인 요약값을 작성하여 데이터를 탐색하는 것이 유용한 경우가 종종 있습니다. SPSS Modeler 요약하려는 데이터 유형에 따라 선택할 수 있는 다양한 유형의 차트를 제공합니다. 예를 들어, 각 약물에 반응한 환자의 비율을 확인하려면 약물 유형(분포) 노드를 탐색합니다. 다음 단계에 따라 몇 가지 차트를 살펴보세요:
약물 유형(배포) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
취소를 클릭하십시오.
약물 유형(배포) 노드 위로 마우스를 가져간 다음 실행 아이콘 ' '을 클릭합니다.
출력 및 모델 창에서 약물 유형 출력을 클릭하여 결과를 확인합니다.
그림 2. 출력 보기: 약물 유형
차트를 통해 데이터의 형태를 확인할 수 있습니다. 이는 환자가 약물 Y에 가장 자주 반응하고 약물 B 및 C에 가장 적게 반응한다는 것을 보여줍니다.
또는 7개 필드(데이터 감사) 노드를 첨부하고 실행하여 모든 필드에 대한 분포와 히스토그램을 한 번에 볼 수 있습니다.
대상 변수인 ' Drug'에 영향을 줄 수 있는 요인을 확인할 수 있습니다. 연구원으로서 혈액 내의 나트륨 및 칼륨 농도가 중요 요인인 것을 알고 있습니다. 이러한 농도는 모두 숫자 값이므로 약물 범주를 색상 오버레이로 사용하는 나트륨 대 칼륨의 분산형 차트를 만들 수 있습니다. 분산형 차트를 만들고 탐색하려면 다음 단계를 따르세요:
팔레트의 그래프 섹션에서 플롯 노드를 캔버스로 끌어다 놓습니다.
노드 위로 마우스를 가져가 제목 수정 버튼을 클릭하고 이름을 ' Na v로 바꿉니다. K.
Plot 노드를 drug1n.csv 데이터 자산 노드에 연결합니다.
' 나 v를 더블클릭합니다. K(플롯) 노드를 클릭하여 해당 속성을 편집합니다.
플롯 섹션에서 ' Na '을 X 필드로, ' K '를 Y 필드로 선택하고 오버레이 섹션에서 ' Drug '을 색상 필드로 선택합니다.
저장 을 클릭하십시오.
' Na v. 위로 마우스를 가져갑니다. K(플롯) 노드를 클릭하고 실행 아이콘 ' ' 를 클릭합니다.
출력 및 모델 창에서 ' 나 v를 클릭합니다. K '을 출력하여 결과를 확인합니다.
플롯에는 임계값이 명확하게 표시됩니다. 임계값보다 높은 값의 경우, 약물 ' Y '이 항상 올바른 약물입니다. 그리고 임계값보다 작은 값의 경우 약물 ' Y '은 올바른 약물이 아닙니다. 이 임계값은 나트륨(Na)과 칼륨(K')의 비율입니다.
진행 상황 확인
다음 이미지는 분산형 차트를 보여줍니다. 이제 웹 차트를 만들고 탐색할 준비가 되었습니다.
많은 데이터 필드가 범주형이기 때문에 서로 다른 범주 간의 연관성을 매핑하는 웹 차트를 그려볼 수도 있습니다. 웹 차트를 탐색하려면 다음 단계를 따르세요:
팔레트의 그래프 섹션에서 웹 노드를 캔버스로 드래그하여 drug1n.csv 데이터 자산 노드에 연결합니다.
웹 노드를 두 번 클릭하여 해당 속성을 편집합니다.
필드 섹션에서 열 추가를 클릭합니다. ' BP '(혈압) 및 ' Drug ' 열을 선택합니다.
저장 을 클릭하십시오.
웹 노드 위로 마우스를 가져간 후 실행 아이콘 ' '을 클릭합니다
출력 및 모델 창에서 웹 출력을 클릭하여 결과를 확인합니다.
줄거리에서 볼 때, 약물 ' Y '은 세 가지 혈압 수준 모두와 관련이 있는 것으로 보입니다. 이 결과는 놀라운 일이 아닙니다. 이미 ' Y '이라는 약물이 가장 적합한 상황을 결정했기 때문입니다.
하지만 Y를 무시하고 다른 약물에 초점을 맞추면, 약물 A와 B 또한 고혈압과 관련이 있다는 것을 알 수 있습니다. 그리고 약물 C와 X는 저혈압과 관련이 있습니다. 그리고 정상 혈압은 약물 X와 관련이 있습니다. 하지만 특정 환자에 대해 ' A '과 ' B ' 또는 ' C '과 ' X' 중 어떤 약물을 선택해야 하는지 아직 모르는 경우가 있습니다. 이 경우 모델링이 도움이 될 수 있습니다.
진행 상황 확인
다음 이미지는 웹 플롯을 보여줍니다. 이제 고급 비주얼리제이션을 탐색할 준비가 되었습니다.
과제 4의 산점도에서 보았듯이 나트륨과 칼륨의 비율은 약물 Y의 사용 시기를 예측하는 것으로 보입니다. 각 레코드에 대해 이 비율의 값이 포함된 필드를 도출할 수 있습니다. 나중에 다섯 가지의 약물 중 각 약물을 사용할 시기를 예측하는 모델을 작성할 때 이 필드가 유용할 수 있습니다.
파생 노드를 탐색하려면 다음 단계를 따르세요:
Na_to_K(파생) 노드를 두 번 클릭하여 해당 속성을 편집합니다.
표현식 섹션을 살펴보세요. Na/K는 나트륨 값을 칼륨 값으로 나누면 새로운 면적을 구할 수 있기 때문에 나온 표현입니다.계산기 아이콘 아이콘을 클릭하여 표현식을 생성할 수도 있습니다. 표현식 작성기를 여는 방법; 함수, 피연산자, 필드 및 해당 값의 내장 목록을 사용하여 대화형으로 표현식을 만드는 방법입니다.
데이터를 탐색하고 조작함으로써 몇 가지 가설을 세울 수 있습니다. 혈압과 마찬가지로 혈액 내 나트륨 대 칼륨의 비율이 약물 선택에 영향을 미치는 것처럼 보입니다. 그러나 아직은 모든 관계를 완전히 설명할 수 없습니다. 모델링을 통해 몇 가지 해답을 얻을 수 있습니다. 먼저 다음 단계에 따라 필터 및 유형 노드를 탐색합니다:
필드 삭제(필터) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
파생 필드 ' Na_to_K '이 사용되므로 원래 필드 ' Na '와 ' K '은 필터링되므로 모델링 알고리즘에서 두 번 사용되지 않습니다.
그림 4. filter 노드 특성
취소를 클릭하십시오.
유형 정의(유형) 노드를 두 번 클릭하여 해당 속성을 확인합니다.
유형 노드를 사용하면 사용 중인 필드의 유형과 결과를 예측하는 데 사용되는 방식을 나타낼 수 있습니다. ' Drug 필드의 역할이 Target으로 설정되어 있어 ' Drug '가 예측하려는 필드라는 것을 알 수 있습니다. 다른 필드의 역할은 예측자로 사용되도록 입력으로 설정되어 있습니다.
트리 다이어그램은 C5.0 노드에서 생성된 규칙 집합을 트리 형식으로 표시합니다. 이제 퍼즐의 빠진 조각을 볼 수 있습니다. Na-to-K 비율이 14.829 미만이고 혈압이 높은 사람의 경우 나이가 약물 선택을 결정합니다. 저혈압인 사람의 경우, 콜레스테롤 수준이 최선의 예측변수인 것처럼 보입니다.
트리의 노드 위로 마우스를 이동하면 각 혈압 카테고리의 케이스 수 및 케이스의 신뢰도 백분율과 같은 세부사항을 볼 수 있습니다.
팔레트의 출력 섹션에서 분석 노드를 캔버스로 드래그하여 약물(C5.0) 모델 너겟에 연결합니다.
분석 노드 위로 마우스를 가져가서 실행 아이콘 ' '을 클릭합니다
' 출력 및 모델 창에서 ' 약물] 분석 ' 출력을 클릭하여 결과를 확인합니다.
분석 노드 출력은 이 인공 데이터 세트에서 모델이 데이터 세트의 모든 레코드에 대해 약물 선택을 올바르게 예측했음을 보여줍니다. 실제 데이터 집합을 사용하면 100% 정확도를 볼 수는 없지만 분석 노드를 사용하여 모델이 특정 애플리케이션에 적합한지 여부를 판단할 수 있습니다.
본 사이트의 쿠키 정보웹 사이트가 제대로 작동하려면 일부 쿠키가 필요합니다(필수사항). 또한 다른 쿠키는 사이트 사용을 분석하고 사용자 경험을 개선하며 광고를 목적으로 귀하의 동의에 따라 사용될 수 있습니다.자세한 정보는 쿠키 환경 설정 옵션을 확인해 주시기 바랍니다. IBM 웹사이트를 방문함으로써 귀하는 IBM의개인정보처리방침에 따라 당사가 정보를 처리하는 것에 동의합니다.원활한 탐색을 제공하기 위해 귀하의 쿠키 환경 설정은 여기에 나열된 IBM 웹 도메인 전체에서 공유됩니다.