Prova il tutorial
In questa esercitazione, completerete questi compiti:
- Compito 1: Aprire il progetto di esempio
- Compito 2: Esaminare il patrimonio di dati
- Compito 3: Esplorare i grafici di distribuzione e revisione dei dati
- Compito 4: Creare ed esplorare il grafico di dispersione
- Compito 5: Creare ed esplorare il grafico web
- Compito 6: Esplorare visualizzazioni avanzate
- Compito 7: Esplorare il nodo Derive
- Task 8: Esplorare i nodi Filtro e Tipo
- Compito 9: Generare il modello
- Compito 10: Creare un nodo Analisi
Esempio di flusso di modellazione e set di dati
Questa esercitazione utilizza il flusso Trattamento delle droghe - Grafici esplorativi nel progetto di esempio. Il file di dati utilizzato è drug1n.csv L'immagine seguente mostra il flusso del modellatore di esempio.
Campo dati | Descrizione |
---|---|
Age |
Età del paziente (numero) |
Sex |
M o F |
BP |
Pressione sanguigna: HIGH , NORMAL o LOW |
Cholesterol |
Colesterolo del sangue: NORMAL o HIGH |
Na |
Concentrazione di sodio nel sangue |
K |
Concentrazione di potassio nel sangue |
Drug |
Cura prescritta a cui il paziente ha risposto |
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
- In Cloud Pak for Data, dal menu di navigazione ', scegliere Progetti > Visualizza tutti i progetti.
- Fare clic su ProgettoSPSS Modeler.
- Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
Compito 2: Esaminare il patrimonio di dati
Il trattamento dei farmaci - Grafici esplorativi comprende diversi nodi. Per esaminare il nodo Asset di dati, procedere come segue:
- Dalla scheda Assets, aprire il flusso del modellatore Drug Treatment - Exploratory Graphs e attendere il caricamento dell'area di disegno.
- Fare doppio clic sul nodo drug1n.csv Questo nodo è un nodo di risorse dati che punta al file drug1n.csv nel progetto.
- Esaminare il 'Proprietà del formato del file.
- Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
Controllare i progressi
L'immagine seguente mostra il nodo Data Asset. Ora si è pronti a esplorare i grafici di distribuzione e di verifica dei dati.
Compito 3: Esplorare i grafici di distribuzione e revisione dei dati
Durante il data mining, è spesso utile esplorare i dati creando riepiloghi visivi. SPSS Modeler offre diversi tipi di grafici tra cui scegliere, a seconda del tipo di dati che si desidera riassumere. Ad esempio, per scoprire quale percentuale di pazienti ha risposto a ciascun farmaco, esplorare un nodo Tipo di farmaco (Distribuzione). Seguite questi passaggi per esplorare alcuni grafici:
- Fare doppio clic sul nodo Tipo di farmaco (Distribuzione) per visualizzarne le proprietà.
- Fare clic su Annulla.
- Passare il mouse sul nodo Tipo di farmaco (Distribuzione) e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sull'output del tipo di farmaco per visualizzare i risultati.
Il grafico aiuta a vedere la forma dei dati. Mostra che i pazienti hanno risposto alla cura
Y
più spesso che alle cure
B
e
C
.
In alternativa, è possibile collegare ed eseguire un nodo 7 campi (Data Audit) per visualizzare le distribuzioni e gli istogrammi di tutti i campi in una sola volta.
- Fare doppio clic sul nodo di output 7 Fields (Data Audit) dopo il nodo Data Asset.
- Passare il mouse sul nodo 7 Campi (Data Audit) e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sull'output 7 Fields (Data Audit) per visualizzare i risultati.
Controllare i progressi
L'immagine seguente mostra il flusso. Ora siete pronti a creare ed esplorare il grafico di dispersione.
Compito 4: Creare ed esplorare il grafico di dispersione
È possibile vedere quali fattori possono influenzare 'Drug
, la variabile target. I ricercatori sanno che le concentrazioni di sodio e potassio nel sangue
rappresentano fattori importanti. Poiché queste concentrazioni sono entrambe valori numerici, è possibile creare un grafico a dispersione del sodio rispetto al potassio, utilizzando le categorie di farmaci come sovrapposizione di colori. Seguite questi passaggi per creare ed esplorare il grafico a dispersione:
- Dalla sezione Grafici della tavolozza, trascinare il nodo Traccia sull'area di disegno.
- Passare il mouse sul nodo, fare clic sul pulsante Modifica titolo e rinominarlo in 'Na v. K.
- Collegare il nodo Trama al nodo dell'asset dati drug1n.csv.
- Fare doppio clic sul 'Na v. K (Traccia) nodo per modificarne le proprietà.
- Nella sezione Traccia, selezionare '
Na
come campo X, 'K
come campo Y e nella sezione Sovrapposizione, selezionare 'Drug
come campo Colore. - Fare clic su Salva.
- Passare il mouse sul 'Na v. K (Traccia) nodo e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic su 'Na v. K per visualizzare i risultati.
Il grafico mostra chiaramente una soglia. Per valori superiori alla soglia, il farmaco " Y
è sempre il farmaco corretto. E per valori inferiori alla soglia, il farmaco " Y
non è mai il farmaco corretto. Questa soglia è il rapporto tra sodio (Na
) e potassio (K
).
Controllare i progressi
L'immagine seguente mostra il grafico a dispersione. Ora siete pronti a creare ed esplorare il grafico web.
Compito 5: Creare ed esplorare il grafico web
Poiché molti dei campi di dati sono categoriali, si può anche provare a tracciare un grafico web, che mappa le associazioni tra le diverse categorie. Seguite questi passaggi per esplorare un grafico web:
- Dalla sezione Grafici della tavolozza, trascinare il nodo Web sull'area di disegno e collegarlo al nodo della risorsa dati drug1n.csv
- Fare doppio clic sul nodo Web per modificarne le proprietà.
- Nella sezione Campi, fare clic su Aggiungi colonne. Selezionare le colonne "
BP
(per la pressione sanguigna) e "Drug
. - Fare clic su Salva.
- Passare il mouse sul nodo Web e fare clic sull'icona Esegui '
- Nel riquadro Output e modelli, fare clic sull'output Web per visualizzare i risultati.
Dal grafico, sembra che il farmaco " Y
sia associato a tutti e tre i livelli di pressione sanguigna. Questo risultato non è una sorpresa: si è già determinata la situazione in cui il farmaco " Y
" è migliore.
Tuttavia, se si ignora la cura Y
e si concentra
l'attenzione sulle altre cure, è possibile notare che le cure
A
e B
sono associate anche ad una elevata
pressione sanguigna. Inoltre, le cure
C
e X
sono associate ad una bassa pressione
sanguigna. E la pressione sanguigna normale è associata al farmaco 'X
. Tuttavia, non sapete ancora come scegliere tra i farmaci " A
e " B
o tra i farmaci " C
e " X
per un determinato paziente. La modellazione può essere d'aiuto in questo caso.
Controllare i progressi
L'immagine seguente mostra la trama web. Ora siete pronti a esplorare le visualizzazioni avanzate.
Compito 6: Esplorare visualizzazioni avanzate
Le sezioni precedenti utilizzano diversi tipi di nodi del grafo. Un altro metodo per esplorare i dati è costituito dall'utilizzo della funzione di visualizzazione avanzata. Seguite questi passaggi per creare ed esplorare grafici avanzati:
- Dalla sezione Grafici della palette, trascinare il nodo Grafici sull'area di disegno e collegarlo al nodo della risorsa dati drug1n.csv
- Fare doppio clic sul nodo Grafici per visualizzarne le proprietà.
- Fare clic sul pulsante Avvia costruttore di grafici.
Qui è possibile scegliere e creare grafici avanzati per esplorare i dati da diverse prospettive e identificare schemi, collegamenti e relazioni all'interno dei dati. Sperimentate la creazione di alcuni grafici prima di tornare al flusso del modellatore.
Controllare i progressi
L'immagine seguente mostra un esempio di grafico 3D. Ora si è pronti a esplorare il nodo Derive.
Compito 7: Esplorare il nodo Derive
Come si è visto con il grafico a dispersione del compito 4, il rapporto tra sodio e potassio sembra predire quando usare il farmaco Y. È possibile ricavare un campo che contenga il valore di questo rapporto per ogni record. Tale campo sarà utile successivamente per la creazione di un modello che consenta di prevedere i casi in cui deve essere utilizzata ognuna delle cinque cure.
Seguite questi passaggi per esplorare il nodo Derive :
- Fare doppio clic sul nodo Na_to_K (Derive) per modificarne le proprietà.
- Guardate la sezione Espressione. Na/K è l'espressione perché si ottiene la nuova area dividendo il valore del sodio per quello del potassio.È anche possibile creare un'espressione facendo clic sull'icona della calcolatrice " per aprire il Generatore di espressioni, un modo per creare interattivamente espressioni utilizzando elenchi incorporati di funzioni, operandi e campi e i loro valori.
- Fare clic su Annulla per tornare alle proprietà e fare nuovamente clic su Annulla per tornare al flusso.
- Dalla sezione Grafici della palette, trascinare il nodo Istogramma sull'area di disegno e collegarlo al nodo Na_to_K (Derive).
- Fare doppio clic sul nodo Istogramma per visualizzarne le proprietà.
- Nelle proprietà del nodo Istogramma, specificare Na_to_K come campo da tracciare e Drug come campo di sovrapposizione del colore.
- Fare clic su Salva.
- Passare il mouse sul nodo Istogramma e fare clic sull'icona Esegui '.
- Nel riquadro Output e modelli, fare clic sull'output Istogramma per visualizzare i risultati.
In base al grafico, si può concludere che quando il valore del " Na_to_K
è di circa 15 o più, il farmaco " Y
è il farmaco di scelta.
Controllare i progressi
L'immagine seguente mostra l'istogramma. Ora si è pronti a esplorare i nodi Filtro e Tipo.
Task 8: Esplorare i nodi Filtro e Tipo
Esplorando e manipolando i dati, siete in grado di formulare alcune ipotesi. Il rapporto tra sodio e potassio nel sangue sembra influenzare la scelta della cura, come la pressione sanguigna. Tuttavia, non è ancora possibile spiegare completamente tale relazione. La modellazione può fornire alcune risposte. Per prima cosa, seguire questi passaggi per esplorare i nodi Filtro e Tipo:
- Fare doppio clic sul nodo Scarta campi (filtro) per visualizzarne le proprietà.
- Poiché viene utilizzato il campo derivato '
Na_to_K
, i campi originali 'Na
e 'K
vengono filtrati, in modo da non essere utilizzati due volte nell'algoritmo di modellazione. - Fare clic su Annulla.
- Fare doppio clic sul nodo Define Types (Tipo) per visualizzarne le proprietà.
- Con il nodo Tipo, è possibile indicare i tipi di campi utilizzati e il modo in cui vengono utilizzati per prevedere i risultati. Si noti che il ruolo del campo '
Drug
è impostato su Target, a indicare che 'Drug
è il campo che si vuole prevedere. Il ruolo degli altri campi è impostato su Input, in modo che vengano utilizzati come predittori. - Fare clic su Annulla.
Controllare i progressi
L'immagine seguente mostra il flusso. Ora si è pronti a generare il modello.
Compito 9: Generare il modello
Seguire i seguenti passaggi per generare il modello utilizzando un nodo C5.0:
- Passare il mouse sul nodo Drug (C5.0) e fare clic sull'icona Run '.
- Nel riquadro Output e modelli, fare clic sul modello Drug per visualizzare i risultati.
Il diagramma ad albero visualizza l'insieme delle regole generate dal nodo C5.0 in un formato ad albero. Ora è possibile vedere i pezzi mancanti del puzzle. Per le persone con un rapporto Na-su-K inferiore a
14.829
e pressione sanguigna elevata, l'età è il fattore che determina la scelta del farmaco. Per le persone con pressione sanguigna bassa, il livello di colesterolo sembra essere il miglior predittore.È possibile spostare il puntatore del mouse sui nodi nella struttura ad albero per visualizzarne ulteriori dettagli, come il numero di casi per ciascuna categoria di pressione sanguigna e la percentuale di confidenza dei casi.
Controllare i progressi
L'immagine seguente mostra il diagramma ad albero. Ora si è pronti a creare un nodo Analisi.
Compito 10: Creare un nodo Analisi
Seguire i seguenti passaggi per valutare l'accuratezza del modello utilizzando un nodo Analisi:
- Dalla sezione Output della palette, trascinare il nodo Analisi sull'area di disegno e collegarlo alla pepita del modello Drug (C5.0).
- Passare il mouse sul nodo Analisi e fare clic sull'icona Esegui '
- Nel riquadro Output e modelli, fare clic sull'output Analisi di [Drug] per visualizzare i risultati.
L'output del nodo Analisi mostra che con questo set di dati artificiali, il modello ha previsto correttamente la scelta del farmaco per ogni record del set di dati. Con un set di dati reali è improbabile che si ottenga un'accuratezza del 100%, ma è possibile utilizzare il nodo Analisi per determinare se il modello è accettabilmente accurato per la propria applicazione.
Controllare i progressi
L'immagine seguente mostra l'output dell'analisi.
Riepilogo
Questo esempio mostra come creare ed esplorare i grafici relativi al trattamento farmacologico e utilizzarli per scoprire quale farmaco potrebbe essere appropriato per un futuro paziente con la stessa malattia.
Passi successivi
Ora siete pronti per provare altre esercitazioni diSPSS® Modeler.