0 / 0
Zurück zur englischen Version der Dokumentation
Funktionsweise der Extraktion
Letzte Aktualisierung: 20. Dez. 2024
Funktionsweise der Extraktion (SPSS Modeler)

Bei der Extraktion von zentralen Konzepten und Ideen aus Ihren Antworten stützt sich Text Analytics auf die linguistikbasierte Textanalyse. Diese Methode ist genauso schnell und wirtschaftlich wie statistikbasierte Systeme. Sie bietet jedoch eine weitaus größere Genauigkeit und macht viel weniger manuelle Eingriffe erforderlich. Die linguistikbasierte Textanalyse basiert auf dem Forschungsbereich der Verarbeitung natürlicher Sprache, die auch als "Computerlinguistik" bezeichnet wird.

Wenn Sie verstehen, wie der Extraktionsprozess funktioniert, können Sie einfacher wichtige Entscheidungen bei der Optimierung Ihrer linguistischen Ressourcen (Bibliotheken, Typen, Synonyme und mehr) treffen. Der Extraktionsprozess besteht aus den folgenden Schritten:

  • Konvertierung der Quellendaten in ein Standardformat
  • Identifizierung von Kandidatentermen
  • Angabe von Äquivalenzklassen und Integration von Synonymen
  • Zuordnung eines Typs
  • Indexierung
  • Musterabgleich und Ereignisextraktion

Schritt 1. Konvertierung der Quellendaten in ein Standardformat

In diesem ersten Schritt werden die Daten, die Sie importieren, in ein einheitliches Format konvertiert, das für die weitere Analyse verwendet werden kann. Diese Konvertierung wird intern ausgeführt und ändert Ihre ursprünglichen Daten nicht.

Schritt 2. Identifizierung von Kandidatentermen

Bei der Identifizierung der Kandidatenterme während der linguistischen Extraktion ist die Rolle der linguistischen Ressourcen von großer Bedeutung. Linguistische Ressourcen werden bei jeder Ausführung einer Extraktion verwendet. Sie liegen in Form von Vorlagen, Bibliotheken und kompilierten Ressourcen vor. Bibliotheken enthalten Wörterlisten, Beziehungen und andere Informationen, mit denen die Extraktion angegeben oder optimiert wird. Die kompilierten Ressourcen können nicht angezeigt oder bearbeitet werden. Die verbleibenden Ressourcen (Vorlagen) können jedoch im Vorlageneditor oder, wenn Sie in einer Text Analytics Workbench-Sitzung arbeiten, im Ressourceneditor bearbeitet werden.

Kompilierte Ressourcen sind interne Kernkomponenten der Extraktionsengine. Zu diesen Ressourcen gehören ein allgemeines Wörterverzeichnis, das eine Liste von Grundformen mit Wortartcode (Substantiv, Verb, Adjektiv, Adverb, Partizip, Koordinator, Determinator oder Präposition) enthält. Die Ressourcen enthalten auch reservierte, integrierte Typen, die verwendet werden, um viele extrahierte Begriffe den folgenden Typen zuzuordnen: <Location>, <Organization>oder <Person>.

Neben diesen kompilierten Ressourcen werden mit dem Produkt mehrere Bibliotheken ausgeliefert, die zur Ergänzung der Typen und Konzeptdefinitionen in den kompilierten Ressourcen sowie als Angebot für andere Typen und Synonyme verwendet werden können. Diese Bibliotheken bestehen - wie auch alle von Ihnen erstellten angepassten Bibliotheken - aus mehreren Wörterverzeichnissen. Hierzu gehören Typwörterbücher, Substitutionswörterbücher (Synonyme und optionale Elemente) sowie Ausschlusswörterbücher.

Nachdem die Daten importiert und konvertiert wurden, beginnt die Extraktionsengine mit der Identifizierung potenzieller Terme für die Extraktion. Kandidatenterme sind Wörter oder Wortgruppen, mit denen die Konzepte im Text angegeben werden. Während der Textverarbeitung werden einzelne Wörter (uni-terms), die nicht in den kompilierten Ressourcen enthalten sind, als Extraktionen von Kandidatenbegriffen betrachtet. Potenzielle zusammengesetzte Wörter (Mehrfachbegriffe) werden mithilfe von Extraktoren für Wortartmuster identifiziert. Beispiel: Der Multiterm sports car, der dem Wortartmuster adjective nomen folgt, hat zwei Komponenten. Der Mehrfachbegriff fast sports car, der auf das Wortartmuster Adjektiv Adjektiv folgt, hat drei Komponenten.

Hinweis: Die Begriffe im oben genannten kompilierten allgemeinen Wörterverzeichnis stellen eine Liste aller Wörter dar, die wahrscheinlich uninteressant oder sprachlich mehrdeutig als 'uni-terms' sind. Diese Wörter werden von der Extraktion ausgeschlossen, wenn Sie die uni-terms identifizieren. Sie werden jedoch erneut ausgewertet, wenn Sie Wortarten bestimmen oder längere Kandidatenmischwörter (Mehrfachbegriffe) betrachten.

Aus Großbuchstaben bestehende Zeichenfolgeverarbeiten schließlich werden durch einen speziellen Algorithmus behandelt, damit diese Sondermuster extrahiert werden können.

Schritt 3. Angabe von Äquivalenzklassen und Integration von Synonymen

Nachdem uni-und multiterme Kandidaten identifiziert wurden, verwendet die Software eine Reihe von Algorithmen, um sie zu vergleichen und Äquivalenzklassen zu identifizieren. Eine Äquivalenzklasse ist die Grundform eines Ausdrucks oder eine Einzelform von zwei Varianten desselben Ausdrucks. Die Zuordnung von Ausdrücken zu Äquivalenzklassen dient dazu, sicherzustellen, dass beispielsweise president of the company und company president nicht als separate Konzepte behandelt werden. Um zu bestimmen, welches Konzept für die Äquivalenzklasse verwendet werden soll, d. h., ob president of the company oder company president als führender Term verwendet wird, wendet die Extraktionsengine die folgenden Regeln in der aufgeführten Reihenfolge an:

  • Vom Benutzer in einer Bibliothek angegebene Form
  • Häufigste Form im gesamten Volltext
  • Kürzeste Form im gesamten Volltext (die in der Regel der Grundform entspricht)

Schritt 4. Typ zuordnen

Als Nächstes werden den extrahierten Konzepten Typen zugewiesen. Ein Typ ist eine semantische Gruppierung von Konzepten. In diesem Schritt werden sowohl die kompilierten Ressourcen als auch die Bibliotheken verwendet. Zu Typen gehören beispielsweise übergeordnete Konzepte, positive und negative Wörter, Vornamen, Orte und Unternehmen. Weitere Typen können von Benutzern definiert werden.

Schritt 5. Indexierung

Die gesamte Gruppe von Datensätzen oder Dokumenten wird indexiert, indem ein Zeiger zwischen einer Textposition und der repräsentativen Bedingung für jede Äquivalenzklasse erstellt wird. Dabei wird davon ausgegangen, dass alle gebeugten Formen eines Kandidatenkonzepts als Grundform des Kandidaten indexiert werden. Für jede Grundform wird die globale Häufigkeit berechnet.

Schritt 6. Musterabgleich und Ereignisextraktion

Text Analytics kann nicht nur Typen und Konzepte, sondern auch Beziehungen zwischen ihnen erkennen. Mit diesem Tool sind verschiedene Algorithmen und Bibliotheken verfügbar, die eine Extraktion von Beziehungsmustern zwischen Typen und Konzepten ermöglichen. Besonders nützlich sind sie bei dem Versuch, bestimmte Meinungen (z. B. Reaktionen auf Produkte) oder die Verbindungen zwischen Personen oder Objekten (z. B. Verbindungen zwischen politischen Gruppierungen oder Genomen) zu erkennen.

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen