Heute werden immer mehr Informationen in unstrukturierten und semistrukturierten Formaten wie Kunden-E-Mails, Call-Center-Notizen, offene Umfrageantworten, Nachrichtenfeeds, Webformulare usw. gespeichert. Diese Fülle an Informationen stellt ein Problem für viele Unternehmen dar, die sich fragen: Wie können wir diese Informationen sammeln, untersuchen und nutzen?
Das Textmining ist der Prozess, in dem Sammlungen von Textmaterial analysiert werden, um deren zentrale Konzepte und Themen zu erfassen sowie verdeckte Beziehungen und Trends sichtbar zu machen, ohne dass Sie wissen müssen, mit welchen genauen Wörtern oder Termen diese Konzepte von den Verfassern bezeichnet wurden. Trotz erheblicher Unterschiede wird das Textmining bisweilen mit dem Informationsabruf verwechselt. Die präzise Abfrage und Speicherung von Informationen ist zwar eine enorme Herausforderung, aber die Extraktion und Verwaltung des in den Informationen enthaltenen unschätzbaren Inhalts sowie der wertvollen Terminologie und Beziehungen sind entscheidende und kritische Prozesse.
Textmining und Data-Mining
Für jeden Textbeitrag gibt das linguistikbasierte Textmining einen Index von Konzepten sowie Informationen zu diesen Konzepten zurück. Diese extrahierten und strukturierten Informationen können in Kombination mit anderen Datenquellen Fragen wie beispielsweise die Folgenden beantworten:
- Welche Konzepte treten zusammen auf?
- Womit sind sie ebenfalls verbunden?
- Welche übergeordneteren Kategorien lassen sich aus extrahierten Informationen erstellen?
- Was sagen die Konzepte oder Kategorien voraus?
- Wie sagen die Konzepte oder Kategorie Verhalten voraus?
Durch die Kombination von Textmining und Data-Mining ergibt sich ein größerer Einblick als lediglich aus entweder strukturierten oder unstrukturierten Daten allein. Dieser Prozess umfasst in der Regel die folgenden Schritte:
- Festlegung des Textes für das Textmining: Bereiten Sie den Text für das Mining vor. Falls der Text in mehreren Dateien vorliegt, speichern Sie die Dateien an einer gemeinsamen Position. Ermitteln Sie bei Datenbanken das Feld, das den Text enthält.
- Durchführung des Textminings und Extraktion der strukturierten Daten: Wenden Sie den Algorithmus des Textminings auf den Quellentext an.
- Erstellung von Konzept- und Kategoriemodellen: Ermitteln Sie die zentralen Konzepte und/oder erstellen Sie Kategorien. Die Anzahl der aus den unstrukturierten Daten zurückgegebenen Konzepte ist in der Regel sehr groß. Ermitteln Sie die besten Konzepte und Kategorien für das Scoring.
- Analyse der strukturierten Daten: Nutzen Sie konventionelle Data-Mining-Verfahren wie Clustering, Klassifizierung und Vorhersagemodellierung, um Beziehungen zwischen den Konzepten zu erkennen. Führen Sie die extrahierten Konzepte mit anderen strukturierten Daten zusammen, um künftiges Verhalten auf der Basis der Konzepte vorherzusagen.
Textanalyse und Kategorisierung
Die Textanalyse ist eine Form der qualitativen Analyse und besteht in der Extraktion von brauchbaren Informationen aus Text, damit die in diesem Text enthaltenen zentralen Ideen oder Konzepte in eine entsprechende Anzahl von Kategorien eingeteilt werden können. Die Textanalyse kann für Texte mit beliebigen Typen und Längen durchgeführt werden, allerdings variiert die Methode für die Analyse jeweils etwas.
Kürzere Datensätze oder Dokumente können am einfachsten kategorisiert werden, da sie nicht allzu komplex sind und normalerweise weniger mehrdeutige Wörter und Antworten enthalten. Wenn beispielsweise bei kurzen Fragen in unbefristeten Umfragen die Teilnehmer nach ihren drei beliebtesten Urlaubsaktivitäten gefragt werden, sind möglicherweise viele kurze Antworten zu erwarten wie am Strand liegen, Nationalparks besuchen oder einfach nichts tun. Längere Antworten auf unbefristete Umfragen können hingegen ziemlich komplex und ausführlich sein, was insbesondere dann der Fall ist, wenn die Befragten gebildet und motiviert sind sowie genügend Zeit für das Ausfüllen eines Fragebogens haben. Wenn Personen in einer Umfrage zu ihren politischen Überzeugungen befragt werden oder einen Blog-Feed zu politischen Themen pflegen, ist von einigen ausführlichen Kommentaren über alle möglichen Aspekte und Positionen auszugehen.
Die Möglichkeit, aus diesen längeren Textquellen in kurzer Zeit zentrale Konzepte zu extrahieren und fundierte Kategorien zu erstellen, ist einer der Hauptvorteile bei der Verwendung von Text Analytics. Dieser Vorteil ergibt sich durch die Kombination von automatisierten linguistischen und statistischen Verfahren, damit für jede Phase des Textanalyseprozesses die zuverlässigsten Ergebnisse erzielt werden.
Linguistische Verarbeitung und NLP
Das Hauptproblem bei der Verwaltung dieser vielen unstrukturierten Textdaten besteht darin, dass es keine Standardregeln für das Verfassen von Texten gibt, damit sie von einem Computer verstanden werden können. Die Sprache und infolgedessen die Bedeutung variiert bei jedem Dokument und jedem Textteil. Die einzige Möglichkeit, solche unstrukturierten Daten präzise abzurufen und zu organisieren, besteht darin, die Sprache zu analysieren und so ihre Bedeutung aufzudecken. Für die Extraktion von Konzepten aus unstrukturierten Informationen gibt es verschiedene automatisierte Methoden. Diese Methoden lassen sich in zwei Arten unterteilen, nämlich linguistische und nicht linguistische Methoden.
Einige Unternehmen haben versucht, automatisierte nicht linguistische Lösungen einzusetzen, die auf Statistikdaten und neuronalen Netzen basieren. Diese Lösungen können mithilfe von Computertechnologie die zentralen Konzepte schneller erkennen und kategorisieren als menschliche Leser. Die Genauigkeit solcher Lösungen ist leider relativ gering. Die meisten statistikbasierten Systeme zählen einfach, wie häufig Wörter vorkommen, und berechnen ihre statistische Nähe zu zugehörigen Konzepten. Sie erzeugen viele irrelevante Ergebnisse (so genanntes "Rauschen") und erkennen Ergebnisse nicht, die sie eigentlich finden sollten, was als "Stille" bezeichnet wird.
Zur Kompensation ihrer begrenzten Genauigkeit enthalten einige Lösungen komplexe nicht linguistische Regeln, die eine Unterscheidung zwischen relevanten und irrelevanten Ergebnissen fördern. Dies wird als regelbasiertes Textmining bezeichnet.
Das linguistikbasierte Textmining wendet hingegen die Prinzipien der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), also der computerunterstützten Analyse natürlicher Sprachen, auf die Analyse von Wörtern, Ausdrücken und Syntax oder Struktur von Text an. Ein System mit integrierter Verarbeitung natürlicher Sprache ist in der Lage, Konzepte (inklusive verbundener Ausdrücke) intelligent zu extrahieren. Darüber hinaus ermöglichen Kenntnisse über die zugrunde liegende Sprache mithilfe von Bedeutung und Kontext die Klassifizierung von Konzepten in zusammengehörenden Gruppen (z. B. Produkte, Unternehmen und Personen).
Das linguistikbasierte Textmining ermittelt die Bedeutung von Text in vielerlei Hinsicht wie ein Mensch, indem erkannt wird, dass Wortvarianten ähnliche Bedeutungen haben, und durch die Analyse der Satzstruktur, die einen Rahmen für das Verständnis des Textes bildet. Diese Methode ist so schnell und wirtschaftlich wie statistikbasierte Systeme, bietet jedoch eine weitaus größere Genauigkeit und macht viel weniger manuelle Eingriffe erforderlich.
Um den Unterschied zwischen statistikbasierten und linguistisch basierten Ansätzen während des Extraktionsprozesses zu veranschaulichen, überlegen Sie, wie jeder Ansatz auf eine Abfrage zu reproduction of documents
reagieren würde. Sowohl statistikbasierte als auch linguistikbasierte Lösungen müssten das Wort reproduction
erweitern, um Synonyme wie copy
und duplication
einzuschließen. Andernfalls werden relevante Informationen übersehen. Wenn jedoch eine statistikbasierte Lösung versucht, diese Art von Synonymen zu verwenden-nach anderen Begriffen mit derselben Bedeutung zu suchen-, wird sie wahrscheinlich auch den Begriff birth
einschließen und eine Reihe von irrelevanten Ergebnissen generieren. Das Sprachverständnis umgeht die Mehrdeutigkeit des Textes, weshalb das linguistikbasierte Textmining definitionsgemäß die zuverlässigere Methode ist.
Wenn Sie verstehen, wie der Extraktionsprozess funktioniert, können Sie einfacher wichtige Entscheidungen bei der Optimierung Ihrer linguistischen Ressourcen (Bibliotheken, Typen, Synonyme und mehr) treffen. Der Extraktionsprozess besteht aus den folgenden Schritten:
- Konvertierung der Quellendaten in ein Standardformat
- Identifizierung von Kandidatentermen
- Angabe von Äquivalenzklassen und Integration von Synonymen
- Zuordnung eines Typs
- Indexierung und bei Bedarf Musterabgleich mit einem Sekundäranalysator
Schritt 1. Quellendaten in ein Standardformat konvertieren
In diesem ersten Schritt werden die Daten, die Sie importieren, in ein einheitliches Format konvertiert, das für die weitere Analyse verwendet werden kann. Diese Konvertierung wird intern ausgeführt und ändert Ihre ursprünglichen Daten nicht.
Schritt 2. Kandidatenbegriffe ermitteln
Bei der Identifizierung der Kandidatenterme während der linguistischen Extraktion ist die Rolle der linguistischen Ressourcen von großer Bedeutung. Linguistische Ressourcen werden bei jeder Ausführung einer Extraktion verwendet. Sie liegen in Form von Vorlagen, Bibliotheken und kompilierten Ressourcen vor. Bibliotheken enthalten Wörterlisten, Beziehungen und andere Informationen, mit denen die Extraktion angegeben oder optimiert wird. Die kompilierten Ressourcen können nicht angezeigt oder bearbeitet werden. Die übrigen Ressourcen können jedoch im Vorlageneditor oder, wenn Sie sich in einer Text Analytics Workbench-Sitzung befinden, im Ressourceneditor bearbeitet werden.
Kompilierte Ressourcen sind interne Kernkomponenten der Extraktionsengine in Text Analytics. Diese Ressourcen umfassen ein allgemeines Wörterverzeichnis mit einer Liste von Basisformen mit einem Wortartcode (Substantiv, Verb, Adjektiv usw.).
Neben diesen kompilierten Ressourcen werden mit dem Produkt mehrere Bibliotheken ausgeliefert, die zur Ergänzung der Typen und Konzeptdefinitionen in den kompilierten Ressourcen sowie als Angebot für Synonyme verwendet werden können. Diese Bibliotheken bestehen - wie auch alle von Ihnen erstellten angepassten Bibliotheken - aus mehreren Wörterverzeichnissen. Hierzu gehören Typwörterbücher, Synonymwörterbücher und Ausschlusswörterbücher.
Nachdem die Daten importiert und konvertiert wurden, beginnt die Extraktionsengine mit der Identifizierung potenzieller Terme für die Extraktion. Kandidatenterme sind Wörter oder Wortgruppen, mit denen die Konzepte im Text angegeben werden. Während der Verarbeitung des Textes werden Einzelwörter (Uniterme) und zusammengesetzte Wörter (Multiterme) mithilfe von Extraktionsfunktionen für POS-Muster identifiziert. Anschließend werden mögliche Stimmungsstichwörter mithilfe der Stimmungstextlinkanalyse ermittelt.
Schritt 3. Angabe von Äquivalenzklassen und Integration von Synonymen
Nachdem in Frage kommende Uniterme und Multiterme identifiziert wurden, ermittelt die Software mithilfe eines Normalisierungswörterverzeichnisses die Äquivalenzklassen. Eine Äquivalenzklasse ist eine Grundform eines Ausdrucks oder eine einzelne Form von zwei Varianten desselben Ausdrucks.Die Zuordnung von Ausdrücken zu Äquivalenzklassen dient dazu, sicherzustellen, dass beispielsweise side effect
und 副作用
nicht als separate Konzepte behandelt werden. Um zu bestimmen, welches Konzept für die Äquivalenzklasse–also, ob side effect
oder 副作用
als führender Begriff verwendet wird– verwendet werden soll, wendet die Extraktionsengine die folgenden Regeln in der aufgelisteten Reihenfolge an:
- Vom Benutzer in einer Bibliothek angegebene Form
- Häufigste Form (definiert durch vorkompilierte Ressourcen)
Schritt 4. Typ zuordnen
Als Nächstes werden den extrahierten Konzepten Typen zugewiesen. Ein Typ ist eine semantische Gruppierung von Konzepten. In diesem Schritt werden sowohl die kompilierten Ressourcen als auch die Bibliotheken verwendet. Zu Typen gehören beispielsweise übergeordnete Konzepte, positive und negative Wörter, Vornamen, Orte und Unternehmen.
Linguistische Systeme sind wissensfundiert - je mehr Informationen die Wörterbücher beinhalten, desto höher ist die Qualität der Ergebnisse. Eine Änderung des Wörterverzeichnisinhalts (z. B. von Synonymdefinitionen) kann die resultierenden Informationen vereinfachen. Dieser Prozess ist häufig iterativ und für den akkuraten Konzeptabruf erforderlich. NLP ist ein zentraler Bestandteil von Text Analytics.