Logistikknoten
Logistische Regression, auch nominale Regression genannt, ist ein statistisches Verfahren zur Klassifizierung von Datensätzen anhand der Werte der Eingabefelder. Sie ist analog zur linearen Regression, außer dass statt eines numerischen Zielfelds ein kategoriales verwendet wird. Es werden sowohl binomiale Modelle (für Ziele mit zwei diskreten Kategorien) als auch multinomiale Modelle (für Ziele mit mehr als zwei Kategorien) unterstützt.
Die logistische Regression funktioniert durch Erstellung einer Menge von Gleichungen, die die Werte der Eingabefelder mit den Wahrscheinlichkeiten in Relation setzen, die den einzelnen Ausgabefeldkategorien zugeordnet sind. Nachdem das Modell generiert wurde, können Sie es verwenden, um Wahrscheinlichkeiten für neue Daten zu schätzen. Für jeden Datensatz wird eine Wahrscheinlichkeit der Zugehörigkeit für jede mögliche Ausgabekategorie berechnet. Die Zielkategorie mit der höchsten Wahrscheinlichkeit wird als vorhergesagter Ausgabewert für den betreffenden Datensatz zugewiesen.
Beispiel für ein binomiales Modell. Ein Telekommunikationsanbieter ist besorgt über die Anzahl an Kunden, die er an Mitbewerber verliert. Mithilfe von Daten über die Servicenutzung können Sie ein binomiales Modell erstellen, mit dem Sie prognostizieren können, welche Kunden mit hoher Wahrscheinlichkeit zu einem anderen Anbieter wechseln, und Ihre Angebote emtsprechend anpassen, um so viele Kunden wie möglich zu halten. Ein binomiales Modell wird verwendet, da das Ziel zwei verschiedene Kategorien aufweist (hohe/geringe Wahrscheinlichkeit).
Beispiel für ein multinomiales Modell. Ein Telekommunikationsanbieter hat seinen Kundenstamm nach Serviceverwendungsmustern eingeteilt und die Kunden in vier Gruppen unterteilt. Mithilfe von demografischen Daten zum Vorhersagen der Gruppenzugehörigkeit können Sie ein multinomiales Modell erstellen, um potenzielle Kunden in Gruppen einzuteilen und anschließend Angebote für die einzelnen Kunden anzupassen.
Anforderungen. Es werden mindestens ein Eingabefeld und genau ein kategoriales Zielfeld mit mindestens zwei Kategorien benötigt. Bei einem binomialen Modell muss das Ziel über ein Messniveau des Typs
verfügen. Bei einem multinomialen Modell kann das Ziel ein Messniveau von Flag
oder Flag
mit mindestens zwei Kategorien aufweisen. Felder, die auf Nominal
oder Both
gesetzt sind, werden ignoriert. Bei den im Modell verwendeten Feldern müssen die Typen vollständig instanziiert sein.None
Stärken. Logistische Regressionsmodelle sind häufig ziemlich genau. Sie können symbolische und numerische Eingabefelder verarbeiten. Sie können die vorhergesagten Wahrscheinlichkeiten für alle Zielkategorien angeben, sodass der zweitbeste Kandidat problemlos ermittelt werden kann. Logistische Modelle sind am effektivsten, wenn es sich bei der Gruppenmitgliedschaft um ein echt kategoriales Feld handelt; wenn die Gruppenmitgliedschaft auf Werten eines stetigen Bereichsfelds (z. B. hoher IQ gegenüber niedrigem IQ) basiert, sollten Sie die Anwendung der linearen Regression in Erwägung ziehen, um die umfassenderen Informationen nutzen zu können, die der vollständige Wertebereich bietet. Logistische Modelle können auch eine automatische Feldauswahl durchführen, obwohl andere Ansätze, wie beispielsweise Baummodelle oder Merkmalauswahl, diese Aufgabe bei großen Datasets möglicherweise schneller durchführen. Und schließlich sind viele Analysten und Data-Mining-Experten gut mit logistischen Modellen vertraut, weshalb sie als Basis verwendet werden können, mit der andere Modellierungstechniken verglichen werden können.
Bei der Verarbeitung großer Datasets können Sie die Leistung deutlich verbessern, indem Sie den Likelihood-Quotienten-Test, eine erweiterte Ausgabeoption, inaktivieren.