Mining für Konzepte und Kategorien
Der Textmining-Knoten setzt Linguistik- und Häufigkeitsmuster ein, um zentrale Konzepte aus dem Text zu extrahieren und Kategorien mit diesen Konzepten sowie anderen Daten zu erstellen. Mit dem Knoten können Sie den Textdateninhalt untersuchen sowie entweder ein Konzeptmodellnugget oder ein Kategoriemodellnugget erzeugen.

- Der Modus Direkt generieren (Konzeptmodellnugget) erzeugt beim Ausführen des Knotens automatisch ein Konzept-oder Kategoriemodellnugget.
- Das interaktive Erstellen (Kategoriemodellnugget) ist ein praxisnäher, explorativer Ansatz. Sie können diesen Modus verwenden, um nicht nur Konzepte zu extrahieren, Kategorien zu erstellen und Ihre linguistischen Ressourcen zu optimieren, sondern auch Textlinkanalysen und Cluster zu untersuchen. Dieser Buildmodus startet die Text Analytics Workbench.
Mit dem Textminingknoten können Sie eines von zwei Textmining-Modellnuggets generieren:
- Konzeptmodellnuggets erkennen und extrahieren wichtige Konzepte aus Ihren strukturierten oder unstrukturierten Textdaten.
- Kategoriemodellnuggets bewerten Dokumente und Datensätze und ordnen diese zu Kategorien zu, die aus den extrahierten Konzepten (und Mustern) gebildet werden.
Die extrahierten Konzepte und Muster sowie die Kategorien aus Ihren Modellnuggets können alle mit vorhandenen strukturierten Daten, z. B. demografischen Daten, kombiniert werden, um bessere und fokussiertere Entscheidungen zu ermöglichen. Falls beispielsweise Ihre Kunden häufig Probleme bei der Anmeldung als Haupthinderungsgrund für die Durchführung von Online-Kontoverwaltungstasks anführen, könnte es für Sie sinnvoll sein, "Anmeldeprobleme" in Ihre Modelle aufzunehmen.
Datenquellen und linguistische Ressourcen
Textmining-Modellierungsknoten akzeptieren Textdaten von Importknoten.
Sie können auch benutzerdefinierte Vorlagen und Textanalysepakete direkt im Textminingknoten hochladen, um sie im Extraktionsprozess zu verwenden.
Konzepte und Konzeptmodellnuggets
Während des Extraktionsprozesses werden Textdaten gescannt und analysiert, um wichtige einzelne Wörter wie
oder election
und Wortfolgen wie peace
, presidential election
oder election of the president
zu identifizieren. Diese Wörter und Ausdrücke werden zusammengefasst als Terme bezeichnet. Mithilfe der linguistischen Ressourcen werden die relevanten Terme extrahiert und ähnliche Terme werden unter einem führenden Term gruppiert, der als Konzeptbezeichnet wird.peace treaties
Diese Gruppierung bedeutet, dass ein Konzept mehrere zugrunde liegende Terme darstellen kann. Beispiel: Das Konzept
wurde aus einer Umfrage zur Mitarbeiterzufriedenheit extrahiert. Wenn Sie sich die Datensätze angesehen haben, die salary
zugeordnet sind, haben Sie festgestellt, dass salary
nicht immer im Text vorhanden ist, sondern dass bestimmte Datensätze ähnliche Begriffe wie salary
, wage
und wages
enthalten. Diese Begriffe werden unter salaries
gruppiert, weil die Extraktionsengine sie als ähnlich betrachtet oder als Synonyme auf der Basis von Verarbeitungsregeln oder linguistischen Ressourcen bestimmt hat. In diesem Fall werden alle Dokumente oder Datensätze, die einen dieser Begriffe enthalten, so behandelt, als enthielten sie das Wort salary
.salary
Wenn Sie sehen möchten, welche Terme unter einem Konzept gruppiert sind, können Sie das Konzept in der Text Analytics Workbench untersuchen oder prüfen, welche Synonyme im Konzeptmodell angezeigt werden.
- Untersuchen und analysieren Sie die Konzepte, die im ursprünglichen Quellentext erkannt wurden, oder ermitteln Sie schnell relevante Dokumente.
- Dieses Modell auf neue Textdatensätze oder Dokumente anwenden, um schnell dieselben Schlüsselkonzepte in den neuen Dokumenten/Datensätzen zu identifizieren. Sie können das Modell beispielsweise auf die Echtzeiterkennung von Schlüsselkonzepten in Notizblockdaten aus einem Call-Center anwenden.
Kategorien und Kategoriemodellnuggets
Sie können Kategorien erstellen, die Konzepte oder Themen auf höherer Ebene darstellen, um die im Text ausgedrückten Schlüsselideen, Kenntnisse und Einstellungen zu erfassen. Kategorien bestehen aus einer Reihe von Deskriptoren wie Konzepten, Typen und Regeln. Zusammen werden diese Deskriptoren verwendet, um zu ermitteln, ob ein Datensatz oder Dokument zu einer Kategorie gehört. Durch das Durchsuchen eines Dokuments oder Datensatzes kann ermittelt werden, ob einer seiner Textbestandteile mit einem Deskriptor übereinstimmt. Wenn eine Übereinstimmung gefunden wird, wird das Dokument dieser Kategorie zugeordnet. Dieser Prozess wird als Kategorisierung bezeichnet.
Kategorien können mithilfe der leistungsfähigen automatisierten Verfahren von SPSS Modelerautomatisch erstellt werden. Sie können sie auch mithilfe zusätzlicher Erkenntnisse, die Sie möglicherweise in Bezug auf die Daten haben, oder mithilfe einer Kombination aus beidem manuell erstellen. Darüber hinaus können Sie über die Modelleinstellungen dieses Knotens eine Reihe von vordefinierten Kategorien aus einem Text Analysis Package laden. Die manuelle Erstellung von Kategorien oder die Feinanpassung von Kategorien ist nur über die Text Analytics Workbench möglich.
Ein Kategoriemodellnugget enthält eine Reihe von Kategorien zusammen mit ihren Deskriptoren. Das Modell kann verwendet werden, um eine Gruppe von Dokumenten oder Datensätzen basierend auf dem Text in jedem Dokument oder Datensatz zu kategorisieren. Jedes Dokument bzw. jeder Datensatz wird gelesen und dann jeder Kategorie zugeordnet, für die eine Deskriptorübereinstimmung festgestellt wurde. Ein Dokument oder Datensatz kann somit mehreren Kategorien zugeordnet werden. Sie können beispielsweise Kategoriemodellnuggets verwenden, um die wesentlichen Ideen in offenen Umfrageantworten oder in einer Gruppe von Blogeinträgen anzuzeigen.