Translation not up to date
Węzeł sieci bayesowskiej umożliwia tworzenie modelu prawdopodobieństwa poprzez łączenie obserwowanych i zarejestrowanych dowodów z "zdroworozsądną" wiedzą na temat świata w celu ustalenia prawdopodobieństwa wystąpienia zdarzeń za pomocą pozornie niepołączonych atrybutów. Węzeł koncentruje się na sieciach Tree Augmented Naïve Bayes (TAN) i Markov Blanket, używanych głównie podczas klasyfikacji.
Sieci bayesowskie stosowane są do predykcji w wielu różnych sytuacjach; oto niektóre przykłady:
- Wybór wniosków kredytowych o niskim ryzyku zaległości w spłatach.
- Szacowanie, kiedy sprzęt będzie wymagał serwisowania, nowych części lub wymiany na nowy na podstawie danych z czujników i istniejącej dokumentacji.
- Rozwiązywanie problemów klientów za pośrednictwem narzędzi internetowych.
- Diagnozowanie działania sieci telefonii komórkowej i rozwiązywanie wykrytych problemów w czasie rzeczywistym.
- Ocena potencjalnego ryzyka i potencjalnych zysków z projektów badawczo-rozwojowych w celu skierowania zasobów do najlepiej rokujących inicjatyw.
Sieć bayesowska jest modelem graficznym prezentującym zmienne (często nazywanych węzłami) w zbiorze danych oraz prawdopodobnych lub warunkowych współzależności między tymi zmiennymi. Sieć bayesowska może odzwierciedlać relacje przyczynowe między węzłami; jednak łącza w sieci (nazywane także łukami) nie zawsze odzwierciedlają bezpośrednią przyczynę i skutek. Sieci bayesowskiej można na przykład użyć do obliczenia prawdopodobieństwa, że pacjent cierpi na określoną chorobę, na podstawie obecności lub braku określonych objawów i innych istotnych danych, jeśli prawdopodobne współzależności między objawami a chorobą uwidocznione na wykresie są prawdziwe. Sieci są bardzo odporne na braki danych i generują najlepsze predykcje możliwe do uzyskania na podstawie dostępnych informacji.
Typowy podstawowy przykład sieci bayesowskiej opracowali Lauritzen i Spiegelhalter (1988). Często nazywa się go modelem „Asia”. Stanowi on uproszczoną wersję sieci, którą można stosować do diagnozowania nowych pacjentów lekarza; kierunek łączy w przybliżeniu odpowiada relacjom przyczynowym. Każdy węzeł odzwierciedla jeden aspekt, który może mieć związek ze stanem pacjenta. „Smoking” oznacza, że pacjent pali tytoń, a „VisitAsia” oznacza, że niedawno był w Azji. Relacje prawdopodobieństw są uwidocznione przez łącza między węzłami; na przykład palenie zwiększa prawdopodobieństwo zarówno zachorowania na zapalenie oskrzeli, jak i na raka płuc, natomiast wiek wydaje się być skorelowany tylko z ryzykiem wystąpienia raka płuc. W ten sam sposób nieprawidłowości na zdjęciu RTG płuc mogą być wywołane albo gruźlicą, albo rakiem płuc, natomiast ryzyko występowania duszności jest większe, jeśli pacjent jednocześnie choruje na zapalenie oskrzeli albo raka płuc.
Istnieje kilka uzasadnień dla zastosowania sieci bayesowskiej:
- Sieć taka pomaga w ujawnieniu relacji przyczynowych. Dzięki temu pomaga określić obszar, którego dotyczy problem, i przewidywać konsekwencje podejmowanych interwencji.
- Zastosowanie sieci jest skuteczną strategią unikania przeuczenia.
- Relacje są uwidocznione w przejrzystej postaci.
Wymagania. Zmienne przewidywane muszą być jakościowe i mogą mieć poziom pomiaru Nominalne, Porządkowa lub Flaga. Zmienne wejściowe mogą być dowolnego typu. Zmienne ciągłe (przedziały liczbowe) będą automatycznie kategoryzowane; jeśli jednak rozkład jest skośny, lepsze wyniki można uzyskać poprzez ręczną kategoryzację zmiennych za pomocą węzła kategoryzacji umieszczonego przed węzłem sieci bayesowskiej. Na przykład można zastosować kategoryzację optymalną, w której zmienna nadzorcy będzie taka sama, jak zmienna przewidywana sieci bayesowskiej.
Przykład. Analityk w banku chce przewidzieć, którzy klienci lub potencjalni klienci prawdopodobnie będą zalegać ze spłatą długów. Istnieje możliwość użycia modelu sieci bayesowskiej do identyfikowania charakterystyk klientów najbardziej prawdopodobnych, a także budowania kilku różnych typów modeli w celu ustalenia, które z nich są najlepsze w przewidywaniu potencjalnych wartości domyślnych.
Przykład. Operator telekomunikacyjny chce ograniczyć liczbę klientów, którzy odchodzą z jego sieci, i co miesiąc aktualizuje model danymi z poprzedniego miesiąca. Istnieje możliwość użycia modelu sieci bayesowskiej w celu określenia cech klientów, które mogą być najbardziej narażone na odejście, i w dalszym ciągu trenować model w każdym miesiącu z nowymi danymi.