0 / 0
Torna alla versione inglese della documentazione
Nodo C5.0
Ultimo aggiornamento: 04 ott 2024
Nodo C5.0 (SPSS Modeler)

Questo nodo utilizza l'algoritmo C5.0 per costruire una struttura ad albero delle decisioni o un insieme di regole. Un modello C5.0 suddivide il campione in base al campo che fornisce il massimo guadagno di informazioni. Ogni sottocampione definito dalla prima suddivisione viene ulteriormente suddiviso, in genere in base a un campo diverso, e il processo viene ripetuto finché non è più possibile suddividere ulteriormente i sottocampioni. Vengono infine riesaminate le suddivisioni di livello più basso e quelle che non contribuiscono in modo significativo al valore del modello vengono rimosse o tagliate.

Nota: il nodo C5.0 può prevedere solo un obiettivo categoriale. Quando si analizzano dati con campi categoriali (nominali o ordinali), è più probabile che il nodo raggruppi insieme delle categorie.

C5.0 può produrre due tipi di modelli. Una struttura ad albero delle decisioni è una descrizione semplice e diretta delle suddivisioni riscontrate dall'algoritmo. Ogni nodo terminale, o "foglia", descrive un particolare sottoinsieme dei dati di addestramento e ogni caso nei dati di addestramento appartiene a un nodo terminale specifico nella struttura ad albero. In altre parole, è possibile avere una sola previsione per un qualsiasi particolare record di dati che viene presentato a una struttura ad albero delle decisioni.

Al contrario, un insieme di regole cerca di fare previsioni per i singoli record. Gli insiemi di regole derivano dalle strutture ad albero delle decisioni e, in un certo qual modo, rappresentano una versione semplificata o "distillata" delle informazioni trovate nella struttura ad albero delle decisioni. Gli insiemi di regole spesso sono in grado di mantenere le informazioni più importanti di un'intera struttura ad albero delle decisioni ma con un modello meno complesso. Dato il modo in cui operano, gli insiemi di regole non hanno le stesse proprietà delle strutture ad albero delle decisioni. La differenza più importante è il fatto che, con un insieme di regole, a un particolare record può applicarsi più di una regola o nessuna. Se si applicano più regole, ognuna di esse riceve un "voto" ponderato in base alla confidenza associata a quella regola e la previsione finale viene decisa combinando i voti ponderati di tutte le regole che si applicano al record interessato. Se non si applica alcuna regola, al record viene assegnata una previsione predefinita.

Esempio. Un ricercatore medico ha raccolto dati relativi a un gruppo di pazienti, tutti colpiti dalla stessa malattia. Nel corso della terapia, ogni paziente è stato sottoposto a una cura scelta tra cinque. È possibile utilizzare un modello C5.0 , insieme ad altri nodi, per scoprire quale farmaco potrebbe essere appropriato per un futuro paziente con la stessa malattia.

Requisiti. Per addestrare un modello C5.0 , deve essere presente un campo categoriale (nominale o ordinale) Target e uno o più campi Input di qualsiasi tipo. I campi impostati su Both o None vengono ignorati. È necessario che i tipi dei campi utilizzati nel modello siano completamente istanziati. È anche possibile specificare un campo peso.

Efficacia. I modelli C5.0 sono molto stabili in presenza di problemi quali dati mancanti e grandi numeri di campi di input. In genere, per la stima di tali modelli non sono necessari tempi di addestramento lunghi. Inoltre, i modelli C5.0 tendono a essere più facili da capire rispetto ad altri tipi di modello, dato che le regole da essi derivate sono di interpretazione molto diretta. C5.0 offre anche il potente metodo boosting per aumentare la precisione della classificazione.

Suggerimento: la velocità di creazione del modello C5.0 può trarre vantaggio dall'abilitazione dell'elaborazione parallela.
Nota: quando si crea un flusso per la prima volta, si seleziona quale runtime utilizzare. Per impostazione predefinita, il flusso utilizza il runtime IBM SPSS Modeler. Se si desidera utilizzare algoritmi Spark nativi invece di algoritmi SPSS, selezionare il runtime Spark. Le proprietà per questo nodo variano a seconda dell'opzione di runtime scelta.
Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni