Il nodo Rete bayesiana consente di generare un modello di probabilità combinando elementi osservati e registrati con conoscenze del mondo reale basate sul "buon senso" per stabilire la probabilità delle occorrenze utilizzando attributi apparentemente non collegati fra loro. Il nodo si concentra sulle reti TAN (Tree Augmented Naïve Bayes) e Markov Blanket, che sono prevalentemente utilizzate a scopo di classificazione.
Le reti bayesiane vengono utilizzate per eseguire previsioni in situazioni molto diverse fra loro, per esempio:
- selezione di opportunità di prestito a basso rischio di insolvenza
- previsione del momento in cui determinate attrezzature necessiteranno di manutenzione, ricambi o sostituzione in base all'input di sensori e record esistenti
- risoluzione di problemi della clientela tramite strumenti di risoluzione dei problemi online
- diagnosi e risoluzione dei problemi di reti di telefonia mobile in tempo reale
- valutazione dei rischi e dei vantaggi potenziali di progetti di ricerca e sviluppo per orientare le risorse sulle opportunità migliori
Un rete bayesiana è un modello grafico che visualizza variabili (spesso definite nodi) in un dataset e le indipendenze probabilistiche o condizionali tra di esse. Le relazioni causali tra i nodi possono essere rappresentate da un rete bayesiana, tuttavia i collegamenti all'interno della rete (denominati anche archi) non rappresentano necessariamente una relazione causa-effetto diretta. Per esempio, è possibile utilizzare una rete bayesiana per calcolare la probabilità che un paziente soffra di una determinata malattia, data la presenza o l'assenza di certi sintomi e altri dati rilevanti, se le indipendenze probabilistiche tra i sintomi e la malattia visualizzate nel grafico si dimostrano vere. Le reti sono molto efficaci nei casi in cui mancano informazioni e forniscono la migliore previsione possibile utilizzando tutte le informazioni presenti.
Un esempio comune di rete bayesiana di base è quello creato da Lauritzen e Spiegelhalter nel 1988: spesso chiamato modello "Asia", è la versione semplificata di una rete utilizzabile per eseguire la diagnosi di nuovi pazienti, con la direzione dei collegamenti che corrisponde all'incirca alla causalità. Ogni nodo rappresenta un aspetto che potrebbe essere collegato alla condizione del paziente; per esempio "Smoking" indica che i pazienti sono fumatori dichiarati e "VisitAsia" mostra che si sono recati di recente in Asia. Le relazioni di probabilità sono mostrate dai collegamenti tra i nodi: per esempio, il fumo aumenta le probabilità che il paziente soffra di bronchite e cancro al polmone, mentre l'età sembra collegata solo alla possibilità di sviluppare il cancro al polmone. Allo stesso modo, le anomalie di una radiografia ai polmoni possono essere causate da tubercolosi o cancro ai polmoni, mentre le probabilità che un paziente soffra di dispnea sono maggiori se il paziente soffre anche di bronchite o cancro al polmone.
È possibile decidere di ricorrere a una rete bayesiana per svariate ragioni:
- facilita la comprensione delle relazioni casuali consentendo di capire un'area problematica e di prevedere le conseguenze di un eventuale intervento
- la rete costituisce un approccio efficiente per evitare il sovradattamento di dati
- è facile osservare una chiara visualizzazione delle relazioni coinvolte
Requisiti. I campi obiettivo devono essere categoriali e possono avere un livello di misurazione Nominale, Ordinale o Indicatore. Gli input possono essere campi di qualsiasi tipo. I campi di input continui (intervallo numerico) vengono automaticamente raccolti; tuttavia, se la distribuzione è asimmetrica, è possibile ottenere risultati migliori eseguendo manualmente la discretizzazione anteponendo un nodo Discretizzazione al nodo Rete bayesiana. Per esempio, utilizzare la discretizzazione ottimale dove il campo supervisore corrisponde al campo Obiettivo del nodo Rete bayesiana.
Esempio. L'analista di una banca desidera poter prevedere quali clienti o potenziali clienti non restituiranno probabilmente i prestiti ricevuti. È possibile utilizzare un modello di rete bayesiana per identificare le caratteristiche dei clienti con maggiore probabilità di default e creare diversi tipi di modello per stabilire quale sia il migliore per prevedere potenziali defaulter.
Esempio. Un operatore telefonico vuole ridurre il numero di clienti che abbandonano l'azienda (detto "tasso di abbandono") e aggiornare il modello mensilmente utilizzando i dati di ogni mese precedente. Per identificare le caratteristiche dei clienti che hanno la probabilità maggiore di abbandonare l'azienda, è possibile utilizzare un modello di rete bayesiana e continuare ad addestrare il modello ogni mese con i nuovi dati.