Mining für Konzepte und Kategorien

Letzte Aktualisierung: 11. Feb. 2025
Mining für Konzepte und Kategorien (SPSS Modeler)

Der Textmining-Knoten setzt Linguistik- und Häufigkeitsmuster ein, um zentrale Konzepte aus dem Text zu extrahieren und Kategorien mit diesen Konzepten sowie anderen Daten zu erstellen. Mit dem Knoten können Sie den Textdateninhalt untersuchen sowie entweder ein Konzeptmodellnugget oder ein Kategoriemodellnugget erzeugen.

Textmining-Knoten
Wenn Sie diesen Knoten ausführen, extrahiert und organisiert eine interne linguistische Extraktionsengine die Konzepte, Muster und Kategorien mithilfe von Methoden zur Verarbeitung natürlicher Sprache. In den Eigenschaften des Textminingknotens sind zwei Buildmodi verfügbar:
  • Der Modus Direkt generieren (Konzeptmodellnugget) erzeugt beim Ausführen des Knotens automatisch ein Konzept-oder Kategoriemodellnugget.
  • Das interaktive Erstellen (Kategoriemodellnugget) ist ein praxisnäher, explorativer Ansatz. Sie können diesen Modus verwenden, um nicht nur Konzepte zu extrahieren, Kategorien zu erstellen und Ihre linguistischen Ressourcen zu optimieren, sondern auch Textlinkanalysen und Cluster zu untersuchen. Dieser Buildmodus startet die Text Analytics Workbench.

Mit dem Textminingknoten können Sie eines von zwei Textmining-Modellnuggets generieren:

  • Konzeptmodellnuggets erkennen und extrahieren wichtige Konzepte aus Ihren strukturierten oder unstrukturierten Textdaten.
  • Kategoriemodellnuggets bewerten Dokumente und Datensätze und ordnen diese zu Kategorien zu, die aus den extrahierten Konzepten (und Mustern) gebildet werden.

Die extrahierten Konzepte und Muster sowie die Kategorien aus Ihren Modellnuggets können alle mit vorhandenen strukturierten Daten, z. B. demografischen Daten, kombiniert werden, um bessere und fokussiertere Entscheidungen zu ermöglichen. Falls beispielsweise Ihre Kunden häufig Probleme bei der Anmeldung als Haupthinderungsgrund für die Durchführung von Online-Kontoverwaltungstasks anführen, könnte es für Sie sinnvoll sein, "Anmeldeprobleme" in Ihre Modelle aufzunehmen.

Datenquellen und linguistische Ressourcen

Textmining-Modellierungsknoten akzeptieren Textdaten von Importknoten.

Sie können auch benutzerdefinierte Vorlagen und Textanalysepakete direkt im Textminingknoten hochladen, um sie im Extraktionsprozess zu verwenden.

Konzepte und Konzeptmodellnuggets

Während des Extraktionsprozesses werden Textdaten gescannt und analysiert, um wichtige einzelne Wörter wie election oder peaceund Wortfolgen wie presidential election, election of the presidentoder peace treatieszu identifizieren. Diese Wörter und Ausdrücke werden zusammengefasst als Terme bezeichnet. Mithilfe der linguistischen Ressourcen werden die relevanten Terme extrahiert und ähnliche Terme werden unter einem führenden Term gruppiert, der als Konzeptbezeichnet wird.

Diese Gruppierung bedeutet, dass ein Konzept mehrere zugrunde liegende Terme darstellen kann. Beispiel: Das Konzept salary wurde aus einer Umfrage zur Mitarbeiterzufriedenheit extrahiert. Wenn Sie sich die Datensätze angesehen haben, die salaryzugeordnet sind, haben Sie festgestellt, dass salary nicht immer im Text vorhanden ist, sondern dass bestimmte Datensätze ähnliche Begriffe wie wage, wagesund salariesenthalten. Diese Begriffe werden unter salary gruppiert, weil die Extraktionsengine sie als ähnlich betrachtet oder als Synonyme auf der Basis von Verarbeitungsregeln oder linguistischen Ressourcen bestimmt hat. In diesem Fall werden alle Dokumente oder Datensätze, die einen dieser Begriffe enthalten, so behandelt, als enthielten sie das Wort salary.

Wenn Sie sehen möchten, welche Terme unter einem Konzept gruppiert sind, können Sie das Konzept in der Text Analytics Workbench untersuchen oder prüfen, welche Synonyme im Konzeptmodell angezeigt werden.

Ein Konzeptmodellnugget enthält eine Reihe von Konzepten, mit denen Sie Datensätze oder Dokumente identifizieren können, die auch das Konzept enthalten (einschließlich aller Synonyme oder gruppierten Terme). Ein Konzeptmodell kann auf zwei Arten verwendet werden:
  • Untersuchen und analysieren Sie die Konzepte, die im ursprünglichen Quellentext erkannt wurden, oder ermitteln Sie schnell relevante Dokumente.
  • Dieses Modell auf neue Textdatensätze oder Dokumente anwenden, um schnell dieselben Schlüsselkonzepte in den neuen Dokumenten/Datensätzen zu identifizieren. Sie können das Modell beispielsweise auf die Echtzeiterkennung von Schlüsselkonzepten in Notizblockdaten aus einem Call-Center anwenden.

Kategorien und Kategoriemodellnuggets

Sie können Kategorien erstellen, die Konzepte oder Themen auf höherer Ebene darstellen, um die im Text ausgedrückten Schlüsselideen, Kenntnisse und Einstellungen zu erfassen. Kategorien bestehen aus einer Reihe von Deskriptoren wie Konzepten, Typen und Regeln. Zusammen werden diese Deskriptoren verwendet, um zu ermitteln, ob ein Datensatz oder Dokument zu einer Kategorie gehört. Durch das Durchsuchen eines Dokuments oder Datensatzes kann ermittelt werden, ob einer seiner Textbestandteile mit einem Deskriptor übereinstimmt. Wenn eine Übereinstimmung gefunden wird, wird das Dokument dieser Kategorie zugeordnet. Dieser Prozess wird als Kategorisierung bezeichnet.

Kategorien können mithilfe der leistungsfähigen automatisierten Verfahren von SPSS Modelerautomatisch erstellt werden. Sie können sie auch mithilfe zusätzlicher Erkenntnisse, die Sie möglicherweise in Bezug auf die Daten haben, oder mithilfe einer Kombination aus beidem manuell erstellen. Darüber hinaus können Sie über die Modelleinstellungen dieses Knotens eine Reihe von vordefinierten Kategorien aus einem Text Analysis Package laden. Die manuelle Erstellung von Kategorien oder die Feinanpassung von Kategorien ist nur über die Text Analytics Workbench möglich.

Ein Kategoriemodellnugget enthält eine Reihe von Kategorien zusammen mit ihren Deskriptoren. Das Modell kann verwendet werden, um eine Gruppe von Dokumenten oder Datensätzen basierend auf dem Text in jedem Dokument oder Datensatz zu kategorisieren. Jedes Dokument bzw. jeder Datensatz wird gelesen und dann jeder Kategorie zugeordnet, für die eine Deskriptorübereinstimmung festgestellt wurde. Ein Dokument oder Datensatz kann somit mehreren Kategorien zugeordnet werden. Sie können beispielsweise Kategoriemodellnuggets verwenden, um die wesentlichen Ideen in offenen Umfrageantworten oder in einer Gruppe von Blogeinträgen anzuzeigen.