Dieses Lernprogramm hilft Ihnen bei der Analyse von Text mit Hilfe von Knoten, die auf die Bearbeitung von Text spezialisiert sind. Sie können zum Beispiel eine Stimmungsanalyse durchführen.
In diesem Tutorial möchte ein Hotelmanager die Bewertungen für sein Hotel analysieren, um zu sehen, was die Kunden denken. Die Bewertungen äußern Meinungen über Hotelpersonal, Komfort, Sauberkeit, Preis und andere Interessengebiete.
Versuchen Sie das Tutorial
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
- Aufgabe 1: Öffnen Sie das Beispielprojekt
- Aufgabe 2: Untersuchen des Knotens Data Asset
- Aufgabe 3: Untersuchen Sie den Knoten Text Mining
- Aufgabe 4: Abstimmen der Ergebnisse in der Text Analytics Workbench
- Aufgabe 5: Erstellen des Modells
- Aufgabe 6: Visualisieren Sie die Kommentare
- Aufgabe 7: Untersuchen Sie den Knoten Textlink-Analyse
Beispielhafter Modellierungsablauf und Datensatz
In diesem Tutorial wird der Fluss "Hotel Satisfaction" aus dem Beispielprojekt verwendet. Der Ablauf verwendet Textanalyseknoten zur Analyse fiktiver Bewertungen über das Hotel. Die verwendete Datendatei ist hotelSatisfaction.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.
Aufgabe 1: Öffnen Sie das Beispielprojekt
Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie noch nicht über das Beispielprojekt verfügen, lesen Sie bitte das Thema Tutorials, um das Beispielprojekt zu erstellen. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:
- Wählen Sie in Cloud Pak for Data aus dem Navigationsmenü " Projekte > Alle Projekte anzeigen.
- Klicken Sie auf SPSS Modeler.
- Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.
Aufgabe 2: Untersuchen des Knotens Data Asset
Hotel Satisfaction umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um den Knoten Daten-Asset zu untersuchen:
- Öffnen Sie auf der Registerkarte Assets den Modellierungsfluss Hotel Satisfaction und warten Sie, bis der Canvas geladen ist.
- Doppelklicken Sie auf den Knoten hotelSatisfaction.csv. Dieser Knoten ist ein Daten-Asset-Knoten, der auf die Datei hotelSatisfaction.csv im Projekt verweist.
- Überprüfen Sie die Eigenschaften des Dateiformats.
- Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Data Asset. Sie können nun den Knoten Text Mining untersuchen.
Aufgabe 3: Untersuchen Sie den Text-Mining-Knoten
Text Mining ist ein iterativer Prozess, der relevante Konzepte und Muster in den Textdaten identifiziert. Wenn Sie den Knoten Text Mining ausführen, liest die Extraktionsmaschine die Textdaten, identifiziert die relevanten Konzepte und ordnet jedem einen Typ zu. Anschließend können Sie die Extraktionsergebnisse mit Hilfe der Text Analytics Workbench überprüfen, um den Extraktionsprozess zu optimieren. Sie können den Text Mining-Knoten erneut ausführen, um neue Ergebnisse zu erhalten, und diese dann auswerten. Beachten Sie den Knoten Typ zwischen dem Knoten Datenbestand und dem Knoten Text Mining. Der Knoten Typ ist erforderlich, um die Felder im Datensatz korrekt zu identifizieren. Gehen Sie folgendermaßen vor, um den Knoten Textmining zu untersuchen:
- Doppelklicken Sie auf den Knoten Kommentare (Text Mining), um seine Eigenschaften anzuzeigen.
- Legen Sie diese Eigenschaften im Abschnitt Felder fest:
- Wählen Sie für das Feld Text die Option Kommentare.
- Für das Feld ID wählen Sie id.Hinweis: Nur das Feld Text ist erforderlich.
- Im Abschnitt Modell sehen Sie, dass das ausgewählte Textanalysepaket Hotel Satisfaction (English)/Topic + Opinion ist.
Ein Textanalysepaket (TAP) ist ein vordefinierter Satz von Bibliotheken und erweiterten linguistischen und nicht-linguistischen Ressourcen, die mit einer oder mehreren Gruppen von vordefinierten Kategorien gebündelt sind. Wenn kein Textanalysepaket für Ihre Anwendung relevant ist, können Sie stattdessen eine Ressourcenvorlage auswählen. Eine Ressourcenvorlage ist ein vordefinierter Satz von Bibliotheken und fortgeschrittenen linguistischen und nicht-linguistischen Ressourcen, die für einen bestimmten Bereich oder eine bestimmte Verwendung feinabgestimmt wurden.
- Legen Sie im Abschnitt Modelle erstellen diese Eigenschaften fest:
- Überprüfen Sie, ob das Feld " Build-Modi auf " Interaktiv aufbauen (Kategorie-Modell-Nugget) gesetzt ist. Wenn Sie den Knoten später ausführen, startet diese Option die Textanalyse-Workbench, eine interaktive Schnittstelle, über die Sie die Extraktionsergebnisse untersuchen und fein abstimmen können.
- Vergewissern Sie sich, dass das Feld Sitzung beginnen nach auf Extrahieren von Konzepten und Textlinks eingestellt ist. Die Option Konzepte extrahieren extrahiert nur Konzepte, während die TLA-Extraktion sowohl Konzepte als auch Textlinks ausgibt, die Verbindungen zwischen Themen (wie Service, Personal und Essen) und Meinungen darstellen.
- Erweitern Sie den Bereich Experte und stellen Sie sicher, dass die Option Rechtschreibung für eine minimale Wortlänge von anpassen mit einer Rechtschreibgrenze von "
5
ausgewählt ist. Diese Option wendet ein Fuzzy-Gruppierungsverfahren an, das die Gruppierung von häufig falsch geschriebenen Wörtern oder Wörtern mit besonders ähnlicher Schreibweise unter einem einzigen Konzept fördert. Der Fuzzy-Gruppierungsalgorithmus entfernt vorübergehend doppelte oder dreifache Konsonanten und alle Vokale (außer dem ersten) aus den extrahierten Wörtern. Dann vergleicht er sie, um festzustellen, ob sie gleich sind. Zum Beispiel sind "location
und "locattoin
gruppiert. - Klicken Sie auf Speichern.
- Bewegen Sie den Mauszeiger über den Knoten Kommentare (Text Mining) und klicken Sie auf das Ausführungssymbol " .
- Klicken Sie im Bereich Ergebnisse und Modelle auf die Ergebnisse mit dem Namen Kommentare, um die Textanalyse-Workbench zu öffnen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt die Text Analytics Workbench. Jetzt können Sie die Ergebnisse abstimmen.
Aufgabe 4: Abstimmen der Ergebnisse in der Text Analytics Workbench
Die Textanalyse-Workbench enthält die Extraktionsergebnisse und das im Textanalysepaket enthaltene Kategorienmodell. Es handelt sich um eine interaktive Werkbank, in der Sie die extrahierten Ergebnisse untersuchen und feinabstimmen, Kategorien erstellen und verfeinern und Kategoriemodell-Nuggets erstellen können. Folgen Sie diesen Schritten, um die Ergebnisse in der Text Analytics Workbench abzustimmen:
Konzepte
- Klicken Sie auf die Registerkarte Konzepte.
Während des Extraktionsprozesses werden die Textdaten analysiert, um interessante oder relevante Einzelwörter wie "
airport
oder "location
und Wortphrasen wie "airport pick-up
zu identifizieren. Diese Wörter und Ausdrücke werden zusammengefasst als Terme bezeichnet. Anhand der linguistischen Ressourcen werden die relevanten Begriffe extrahiert und ähnliche Begriffe unter einem Leitbegriff, dem so genannten Konzept, gruppiert.Auf diese Weise kann ein Begriff mehrere zugrunde liegende Begriffe repräsentieren. Das hängt davon ab, wie der Begriff in Ihrem Text verwendet wird und welche sprachlichen Mittel Sie verwenden.
- Klicken Sie auf das Filtersymbol '
- Sie können auch einen Filter verwenden, um eine Teilmenge von Konzepten auszuwählen. Die folgende Abbildung zeigt die verschiedenen Optionen:
Wenn Sie die Filter entfernen und alle Konzepte anzeigen möchten, klicken Sie auf Filter löschen.
Klicken Sie auf Abbrechen, um den Filterbereich zu schließen.
Textlinks
- Klicken Sie auf die Registerkarte Textlinks.
Die Text-Link-Analyse (TLA) ist eine Pattern-Matching-Technologie, die TLA-Regeln mit extrahierten Konzepten und Beziehungen vergleicht, die in Ihrem Text gefunden wurden. Auf der Registerkarte Textverknüpfungen können Sie die TLA-Muster, die in Ihren Textdaten gefunden wurden, erstellen und untersuchen.
- Wählen Sie ein Schriftmuster (z. B. <Dienstleistungen> + <Positiv> ), um eine Vorschau des Textes im Dokument anzuzeigen. Wenn der Text in der Dokumentenvorschau abgeschnitten ist, klicken Sie auf das Symbol für das gesamte Dokument ' , um den gesamten Text anzuzeigen.
Kategorien
- Klicken Sie auf die Registerkarte Kategorien.
Sie können Ihre Kategorien erstellen und verwalten. Nachdem die Konzepte und Typen aus Ihren Textdaten extrahiert wurden, können Sie mit der automatischen Erstellung von Kategorien beginnen, indem Sie Techniken wie die Konzepteinbindung, das semantische Netzwerk (nur in Englisch) oder manuell anwenden.
Da dieser Beispielablauf eine Textanalyse-Paketvorlage verwendet, ist das Kategorienmodell bereits ausgefüllt.
- Klicken Sie auf Alle bewerten, um die Dokumente oder Datensätze zu bewerten. Jedes Mal, wenn eine Kategorie erstellt oder aktualisiert wird, können Sie sehen, ob ein Text einem Deskriptor in einer bestimmten Kategorie entspricht. Wird eine Übereinstimmung festgestellt, wird das Dokument bzw. der Datensatz der betreffenden Kategorie zugewiesen. Das Ergebnis ist, dass die meisten, wenn nicht sogar alle Dokumente oder Datensätze auf der Grundlage der Deskriptoren in den Kategorien zugeordnet werden.
- Erweitern Sie eine Kategorie, zum Beispiel Hotelausstattung > Sauberkeit > Negativ > nicht gereinigt.
- Zeigen Sie die Dokumente auf der Registerkarte Vorschau und der Registerkarte Deskriptoren an, um die Quelldaten zu sehen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt die Dokumentenvorschau für die Kategorie Sauberkeit. Jetzt können Sie das Modell bauen.
Aufgabe 5: Erstellen des Modells
Sobald Sie den Extraktionsprozess abgestimmt haben, können Sie aus den Anpassungen und den von Ihnen erstellten Kategorien ein Kategorienmodell erstellen. Befolgen Sie diese Schritte, um das Modell zu erstellen und einzusetzen:
- Klicken Sie auf Modell generieren, um ein Kategoriemodell zu erstellen.
- Klicken Sie auf Erstellen, um zu bestätigen, dass Sie ein Kategoriemodell erstellen möchten.
- Wenn Sie die Success! nachricht klicken Sie auf Zurück zum Fluss.
- Klicken Sie auf Speichern und beenden, um Ihre Änderungen und den Text Mining-Knoten im Ablauf zu speichern.Das generierte Kategoriemodell-Nugget wird in Ihrem Flow Canvas angezeigt.
- Beachten Sie die beiden Satisfaction Model-Knoten im Beispielablauf. Nachdem die Text Analytics Workbench ein Kategorienmodell validiert und generiert hat, können Sie es in Ihrem Datenfluss einsetzen und denselben Datensatz oder neue Daten bewerten. Jedes Modell verwendet einen anderen Modus für die Punktevergabe.
- Doppelklicken Sie auf den ersten Knoten Satisfaction Model.
- Erweitern Sie den Abschnitt Einstellungen, um zu sehen, dass dieser Knoten den Bewertungsmodus Kategorien als Felder verwendet. Bei diesem Auswertungsmodus gibt es genau so viele Ausgabedatensätze wie Eingabedatensätze.
- Klicken Sie auf Datenvorschau. Sie sehen, dass jeder Datensatz jetzt ein neues Feld für jede Kategorie enthält, die auf der Registerkarte Modell ausgewählt wurde. Geben Sie für jedes Feld einen Markierungswert für "wahr" und "falsch" ein, beispielsweise
True/False
oder1/0
. Im vorliegenden Ablauf sind die Werte auf1
und0
gesetzt, um Ergebnisse zu aggregieren und die Anzahl der folgenden Typen von Antworten zu zählen: positive, negative, kombinierte (sowohl positive als auch negative) oder "kein Score" (keine Meinung). - Schließen Sie das Fenster Vorschau.
- Klicken Sie auf Cancel (Abbrechen).
- Doppelklicken Sie auf den zweiten Knoten Satisfaction Model.
- Erweitern Sie den Abschnitt Einstellungen, um zu sehen, dass dieser Knoten den Bewertungsmodus Kategorien als Datensätze verwendet. Für jedes '
category, document
-Paar wird ein neuer Datensatz angelegt. Normalerweise gibt es mehr Datensätze in der Ausgabe, als in der Eingabe vorhanden waren. - Klicken Sie auf Datenvorschau. Sie können sehen, dass neben den Eingabefeldern auch neue Felder zu den Daten hinzugefügt werden, je nachdem, um welche Art von Modell es sich handelt.
- Schließen Sie das Fenster Vorschau.
- Klicken Sie auf Cancel (Abbrechen).
- Erweitern Sie den Abschnitt Einstellungen, um zu sehen, dass dieser Knoten den Bewertungsmodus Kategorien als Datensätze verwendet. Für jedes '
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt das Zufriedenheitsmodell mit einer Dokumentenvorschau. Sie sind nun bereit, die Kommentare zu visualisieren.
Aufgabe 6: Visualisieren Sie die Kommentare
Durch die Visualisierung der Kommentare können Sie schnell erkennen, was die Gäste an Ihrem Hotel schätzen. Befolgen Sie diese Schritte, um ein Wortwolkendiagramm zu erstellen:
- Wählen Sie die positiven Kommentare aus:
- Erweitern Sie in der Palette den Abschnitt Aufzeichnungsvorgänge.
- Ziehen Sie den Knoten Auswählen auf die Leinwand.
- Verbinden Sie den Superknoten Sentiment ableiten mit dem Knoten Auswählen.
- Doppelklicken Sie auf den Knoten Auswählen, um seine Eigenschaften anzuzeigen.
- Wählen Sie für den Modus die Option Einschließen.
- Für die Bedingung geben Sie "
Sentiment = "Pos"
ein. - Klicken Sie auf Speichern.
- Fügen Sie ein Diagramm hinzu:
- Erweitern Sie in der Palette den Abschnitt Diagramme.
- Ziehen Sie den Knoten Diagramme auf die Leinwand.
- Verbinden Sie den Knoten Auswählen mit dem Knoten Diagramme.
- Erstellen Sie ein Wortwolken-Diagramm:
- Doppelklicken Sie auf den Knoten Diagramme, um seine Eigenschaften anzuzeigen.
- Klicken Sie auf Chart Builder starten.
- Wählen Sie für die zu visualisierenden Spalten Kommentare.
- Zeigen Sie die Liste aller Diagrammtypen an, und wählen Sie Wortwolke.
- Wenn Sie fertig sind, klicken Sie auf Zurück zum Fluss.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt ein Wortwolken-Diagramm. Sie können nun den Knoten Textlinkanalyse untersuchen.
Aufgabe 7: Untersuchen Sie den Knoten Textlink-Analyse
- Doppelklicken Sie auf den Knoten Textlinkanalyse, um seine Eigenschaften anzuzeigen.
- Legen Sie diese Eigenschaften im Abschnitt Felder fest:
- Wählen Sie für das Feld Text die Option Kommentare.
- Für das Feld ID wählen Sie id.Hinweis: Nur das Feld Text ist erforderlich.
- Im Abschnitt Ressourcen kopieren von sehen Sie, dass die ausgewählte Ressourcenvorlage Hotel Satisfaction (Englisch) ist.
Eine Ressourcenvorlage ist ein vordefinierter Satz von Bibliotheken und fortgeschrittenen linguistischen und nicht-linguistischen Ressourcen, die für einen bestimmten Bereich oder eine bestimmte Verwendung feinabgestimmt wurden.
- Erweitern Sie den Bereich Experte und stellen Sie sicher, dass die Option Rechtschreibung für eine minimale Wortlänge von anpassen mit einer Rechtschreibgrenze von "
5
ausgewählt ist. - Klicken Sie auf Speichern.
- Bewegen Sie den Mauszeiger über den Knoten " Raw TLA output" und klicken Sie auf das Ausführungssymbol " .
- Klicken Sie im Bereich Ausgaben und Modelle auf die Ergebnisse mit dem Namen TLA-Rohausgabe, um die Ergebnisse anzuzeigen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den fertigen Ablauf.
Zusammenfassung
Dieser Fluss zur Hotelzufriedenheit hat Ihnen gezeigt, wie ein Hotelmanager Hotelbewertungen analysieren kann, um die Meinungen der Kunden über das Hotelpersonal, den Komfort, die Sauberkeit, den Preis und andere Bereiche von Interesse zu erfahren. Dieser Ablauf veranschaulicht zwei Möglichkeiten der Analyse von Textdaten, nämlich die Verwendung eines Text-Mining-Knotens oder eines Text-Link-Analyse-Knotens.
Nächste Schritte
Sie sind nun bereit, einen anderen ' SPSS® Modeler Tutorials auszuprobieren.