tutorial fornisce un esempio di come un ricercatore medico può compilare e visualizzare uno studio. Il medico legale ha raccolto dati su una serie di pazienti, tutti affetti dalla stessa malattia. Nel corso della terapia, ogni paziente è stato sottoposto a una cura scelta tra cinque. Si
desidera utilizzare quindi il data mining per individuare la cura più
appropriata per un paziente che soffra della stessa malattia.
Anteprima del tutorial
Copy link to section
Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta. Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Prova il tutorial
Copy link to section
In questa esercitazione, completerete questi compiti:
Questa esercitazione utilizza il flusso Trattamento delle droghe - Grafici esplorativi nel progetto di esempio. Il file di dati utilizzato è drug1n.csv L'immagine seguente mostra il flusso del modellatore di esempio.
Figura 1. Flusso del modellatore di campioni
I campi dati utilizzati in questo esempio sono i seguenti:
Campo dati
Descrizione
Age
Età del paziente (numero)
Sex
M o F
BP
Pressione sanguigna: HIGH, NORMALo LOW
Cholesterol
Colesterolo del sangue: NORMAL o HIGH
Na
Concentrazione di sodio nel sangue
K
Concentrazione di potassio nel sangue
Drug
Cura prescritta a cui il paziente ha risposto
Compito 1: Aprire il progetto di esempio
Copy link to section
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
In watsonx, dal menu di navigazione, scegliete Progetti > Visualizza tutti i progetti.
Fare clic su ProgettoSPSS Modeler.
Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i propri progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Compito 3: Esplorare i grafici di distribuzione e revisione dei dati
Copy link to section
Durante il data mining, è spesso utile esplorare i dati
creando riepiloghi visivi. SPSS Modeler offre diversi tipi di grafici tra cui scegliere, a seconda del tipo di dati che si desidera riassumere. Ad esempio, per scoprire quale percentuale di pazienti ha risposto a ciascun farmaco, esplorare un nodo Tipo di farmaco (Distribuzione). Seguite questi passaggi per esplorare alcuni grafici:
Fare doppio clic sul nodo Tipo di farmaco (Distribuzione) per visualizzarne le proprietà.
Fare clic su Annulla.
Passare il mouse sul nodo Tipo di farmaco (Distribuzione) e fare clic sull'icona Esegui '.
Nel riquadro Output e modelli, fare clic sull'output del tipo di farmaco per visualizzare i risultati.
Figura 2. Visualizza l'output: Tipo di farmaco
Il grafico aiuta a vedere la forma dei dati. Mostra che i pazienti hanno risposto alla cura
Y più spesso che alle cure
B e
C.
In alternativa, è possibile collegare ed eseguire un nodo 7 campi (Data Audit) per visualizzare le distribuzioni e gli istogrammi di tutti i campi in una sola volta.
Fare doppio clic sul nodo di output 7 Fields (Data Audit) dopo il nodo Data Asset.
Passare il mouse sul nodo 7 Campi (Data Audit) e fare clic sull'icona Esegui '.
Nel riquadro Output e modelli, fare clic sull'output 7 Fields (Data Audit) per visualizzare i risultati.
Figura 3. Visualizza l'output: Verifica dei dati di [7 campi]
Controllare i propri progressi
L'immagine seguente mostra il flusso. Ora siete pronti a creare ed esplorare il grafico di dispersione.
Compito 4: Creare ed esplorare il grafico di dispersione
Copy link to section
È possibile vedere quali fattori possono influenzare 'Drug, la variabile target. I ricercatori sanno che le concentrazioni di sodio e potassio nel sangue
rappresentano fattori importanti. Poiché queste concentrazioni sono entrambe valori numerici, è possibile creare un grafico a dispersione del sodio rispetto al potassio, utilizzando le categorie di farmaci come sovrapposizione di colori. Seguite questi passaggi per creare ed esplorare il grafico a dispersione:
Dalla sezione Grafici della tavolozza, trascinare il nodo Traccia sull'area di disegno.
Passare il mouse sul nodo, fare clic sul pulsante Modifica titolo e rinominarlo in 'Na v. K.
Collegare il nodo Trama al nodo dell'asset dati drug1n.csv.
Fare doppio clic sul 'Na v. K (Traccia) nodo per modificarne le proprietà.
Nella sezione Traccia, selezionare 'Na come campo X, 'K come campo Y e nella sezione Sovrapposizione, selezionare 'Drug come campo Colore.
Fare clic su Salva.
Passare il mouse sul 'Na v. K (Traccia) nodo e fare clic sull'icona Esegui '.
Nel riquadro Output e modelli, fare clic su 'Na v. K per visualizzare i risultati.
Il grafico mostra chiaramente una soglia. Per valori superiori alla soglia, il farmaco " Y è sempre il farmaco corretto. E per valori inferiori alla soglia, il farmaco " Y non è mai il farmaco corretto. Questa soglia è il rapporto tra sodio (Na) e potassio (K).
Controllare i propri progressi
L'immagine seguente mostra il grafico a dispersione. Ora siete pronti a creare ed esplorare il grafico web.
Poiché molti dei campi di dati sono categoriali, si può anche provare a tracciare un grafico web, che mappa le associazioni tra le diverse categorie. Seguite questi passaggi per esplorare un grafico web:
Dalla sezione Grafici della tavolozza, trascinare il nodo Web sull'area di disegno e collegarlo al nodo della risorsa dati drug1n.csv
Fare doppio clic sul nodo Web per modificarne le proprietà.
Nella sezione Campi, fare clic su Aggiungi colonne. Selezionare le colonne " BP (per la pressione sanguigna) e " Drug.
Fare clic su Salva.
Passare il mouse sul nodo Web e fare clic sull'icona Esegui '
Nel riquadro Output e modelli, fare clic sull'output Web per visualizzare i risultati.
Dal grafico, sembra che il farmaco " Y sia associato a tutti e tre i livelli di pressione sanguigna. Questo risultato non è una sorpresa: si è già determinata la situazione in cui il farmaco " Y " è migliore.
Tuttavia, se si ignora la cura Y e si concentra
l'attenzione sulle altre cure, è possibile notare che le cure
A e B sono associate anche ad una elevata
pressione sanguigna. Inoltre, le cure
C e X sono associate ad una bassa pressione
sanguigna. E la pressione sanguigna normale è associata al farmaco 'X. Tuttavia, non sapete ancora come scegliere tra i farmaci " A e " B o tra i farmaci " C e " X per un determinato paziente. La modellazione può essere d'aiuto in questo caso.
Controllare i propri progressi
L'immagine seguente mostra la trama web. Ora siete pronti a esplorare le visualizzazioni avanzate.
Le sezioni precedenti utilizzano diversi tipi di nodi del grafo. Un altro metodo per esplorare i dati è costituito dall'utilizzo
della funzione di visualizzazione avanzata. Seguite questi passaggi per creare ed esplorare grafici avanzati:
Dalla sezione Grafici della palette, trascinare il nodo Grafici sull'area di disegno e collegarlo al nodo della risorsa dati drug1n.csv
Fare doppio clic sul nodo Grafici per visualizzarne le proprietà.
Fare clic sul pulsante Avvia costruttore di grafici.
Qui è possibile scegliere e creare grafici avanzati per esplorare i dati da diverse prospettive e identificare schemi, collegamenti e relazioni all'interno dei dati. Sperimentate la creazione di alcuni grafici prima di tornare al flusso del modellatore.
Controllare i propri progressi
L'immagine seguente mostra un esempio di grafico 3D. Ora si è pronti a esplorare il nodo Derive.
Come si è visto con il grafico a dispersione del compito 4, il rapporto tra sodio e potassio sembra prevedere quando utilizzare il farmaco Y. È possibile ricavare un campo che contenga il valore di questo rapporto per ogni record. Tale campo sarà utile successivamente per la creazione di un modello che
consenta di prevedere i casi in cui deve essere utilizzata ognuna delle cinque
cure.
Seguite questi passaggi per esplorare il nodo Derive :
Fare doppio clic sul nodo Na_to_K (Derive) per modificarne le proprietà.
Guardate la sezione Espressione. Na/K è l'espressione perché si ottiene la nuova area dividendo il valore del sodio per quello del potassio.È possibile creare un'espressione anche facendo clic sull' icona della calcolatrice per aprire il Generatore di espressioni, un modo per creare interattivamente espressioni utilizzando elenchi incorporati di funzioni, operandi e campi e i loro valori.
Fare clic su Annulla per tornare alle proprietà e fare nuovamente clic su Annulla per tornare al flusso.
Dalla sezione Grafici della palette, trascinare il nodo Istogramma sull'area di disegno e collegarlo al nodo Na_to_K (Derive).
Fare doppio clic sul nodo Istogramma per visualizzarne le proprietà.
Nelle proprietà del nodo Istogramma, specificare Na_to_K come campo da tracciare e Drug come campo di sovrapposizione del colore.
Fare clic su Salva.
Passare il mouse sul nodo Istogramma e fare clic sull'icona Esegui '.
Nel riquadro Output e modelli, fare clic sull'output Istogramma per visualizzare i risultati.
Sulla base del grafico, si può concludere che quando il valore del " Na_to_K è di circa 15 o più, il farmaco " Y è il farmaco di scelta.
Controllare i propri progressi
L'immagine seguente mostra l'istogramma. Ora si è pronti a esplorare i nodi Filtro e Tipo.
Esplorando e manipolando i dati, siete in grado di formulare alcune ipotesi. Il rapporto tra sodio e potassio nel sangue sembra
influenzare la scelta della cura, come la pressione sanguigna. Tuttavia, non è ancora possibile spiegare completamente tale relazione. La modellazione può fornire alcune risposte. Per prima cosa, seguite questi passaggi per esplorare i nodi Filtro e Tipo:
Fare doppio clic sul nodo Scarta campi (filtro) per visualizzarne le proprietà.
Poiché viene utilizzato il campo derivato 'Na_to_K, i campi originali 'Na e 'K vengono filtrati, in modo da non essere utilizzati due volte nell'algoritmo di modellazione.
Figura 4. Proprietà del nodo filtro
Fare clic su Annulla.
Fare doppio clic sul nodo Define Types (Tipo) per visualizzarne le proprietà.
Con il nodo Tipo, è possibile indicare i tipi di campi utilizzati e il modo in cui vengono utilizzati per prevedere i risultati. Si noti che il ruolo del campo 'Drug è impostato su Target, a indicare che 'Drug è il campo che si vuole prevedere. Il ruolo degli altri campi è impostato su Input, in modo che vengano utilizzati come predittori.
Figura 5. Proprietà del nodo tipo
Fare clic su Annulla.
Controllare i propri progressi
L'immagine seguente mostra il flusso. Ora si è pronti a generare il modello.
Seguire i seguenti passaggi per generare il modello utilizzando un nodo C5.0:
Passare il mouse sul nodo Drug (C5.0) e fare clic sull'icona Run '.
Nel riquadro Output e modelli, fare clic sul modello Drug per visualizzare i risultati.
Il diagramma ad albero visualizza l'insieme delle regole generate dal nodo C5.0 in un formato ad albero. Ora è possibile vedere i pezzi mancanti del puzzle. Per le persone con un rapporto Na-su-K inferiore a
14.829 e pressione sanguigna elevata, l'età è il fattore che
determina la scelta del
farmaco. Per le persone con pressione sanguigna
bassa, il livello di colesterolo sembra essere
il miglior
predittore.
È possibile spostare il puntatore del mouse sui nodi nella struttura ad
albero per visualizzarne ulteriori dettagli, come il numero di casi per
ciascuna categoria di pressione sanguigna e la percentuale di confidenza dei
casi.
Controllare i propri progressi
L'immagine seguente mostra il diagramma ad albero. Ora si è pronti a creare un nodo Analisi.
Seguire i seguenti passaggi per valutare l'accuratezza del modello utilizzando un nodo Analisi:
Dalla sezione Output della palette, trascinare il nodo Analisi sull'area di disegno e collegarlo alla pepita del modello Drug (C5.0).
Passare il mouse sul nodo Analisi e fare clic sull'icona Esegui '
Nel riquadro Output e modelli, fare clic sull'output Analisi di [Drug] per visualizzare i risultati.
L'output del nodo Analisi mostra che con questo set di dati artificiali, il modello ha previsto correttamente la scelta del farmaco per ogni record del set di dati. Con un set di dati reali è improbabile che si ottenga un'accuratezza del 100%, ma è possibile utilizzare il nodo Analisi per determinare se il modello è accettabilmente accurato per la propria applicazione.
Questo esempio mostra come creare ed esplorare i grafici relativi al trattamento farmacologico e utilizzarli per scoprire quale farmaco potrebbe essere appropriato per un futuro paziente con la stessa malattia.