Beim Erstellen von Kategoriemodellen in Text Analytics können Sie zwischen mehreren unterschiedlichen Verfahren für die Erstellung von Kategorien wählen. Da jedes Dataset eindeutig ist, kann sich die Anzahl der Verfahren und die Reihenfolge ihrer Anwendung jeweils ändern.
Da Sie die Ergebnisse möglicherweise anders interpretieren als jemand anderes, müssen Sie unter Umständen mit den unterschiedlichen Verfahren experimentieren, um herauszufinden, welches Verfahren die besten Ergebnisse für Ihre Textdaten erzielt. In Text Analytics können Sie Kategoriemodelle in einer Workbenchsitzung erstellen, in der Sie Ihre Kategorie weitergehend untersuchen und optimieren können.
In der vorliegenden Dokumentation ist mit Kategorieerstellung die Generierung von Kategoriedefinitionen und die Klassifizierung mithilfe eines oder mehrerer integrierter Verfahren und mit Kategorisierung der Prozess für das Scoring (oder die Kennzeichnung) gemeint, in dem den Kategoriedefinitionen für jeden Datensatz oder jedes Dokument eindeutige Kennungen (Name/ID/Wert) zugewiesen werden.
Während der Kategorieerstellung werden die extrahierten Konzepte und Typen als Bausteine für Ihre Kategorien verwendet. Wenn Sie Kategorien erstellen, werden die Datensätze oder Dokumente automatisch zu Kategorien zugewiesen, falls sie Text enthalten, der mit einem Element in der Definition einer Kategorie übereinstimmt.
Text Analytics bietet Ihnen mehrere Methoden zur automatisierten Kategorieerstellung, damit Sie Ihre Dokumente oder Datensätze zügig kategorisieren können.
Gruppierungsverfahren
Jedes verfügbare Verfahren eignet sich besonders für bestimmte Typen von Daten und Situationen. Häufig ist es jedoch hilfreich, mehrere Verfahren in einer Analyse zu kombinieren, um das ganze Spektrum der Dokumente und Datensätze erfassen zu können. Sie werden feststellen, dass ein Konzept möglicherweise in mehreren Kategorien enthalten ist, oder redundante Kategorien finden.
Semantisches Netz. Dieses Verfahren beginnt damit, dass die möglichen Sinngehalte jedes Konzepts aus seinem umfangreichen Index von Wortbeziehungen ermittelt werden. Anschließend werden durch die Gruppierung von zusammengehörenden Konzepten Kategorien erstellt. Dieses Verfahren eignet sich am besten, wenn die Konzepte dem semantischen Netz bekannt und nicht zu mehrdeutig sind. Es ist weniger von Nutzen, wenn der Text Spezialterminologie oder Fachjargon enthält, die dem Netz unbekannt sind. In einem Beispiel könnte das Konzept granny smith apple
mit gala apple
und winesap apple
gruppiert werden, da sie gleichgeordnete Elemente des Granny Smith sind. In einem anderen Beispiel könnte das Konzept animal
mit cat
und kangaroo
gruppiert werden, da sie Hyponyme von animal
sind. Dieses Verfahren ist nur für Text in englischer Sprache verfügbar.
Konzepteinschluss. Dieses Verfahren erstellt Kategorien, in dem Multitermkonzepte (Komposita) dadurch gruppiert werden, dass sie Wörter enthalten, die Unter- oder Obergruppen eines anderen Wortes sind. Das Konzept seat
würde beispielsweise mit safety seat
, seat belt
und seat belt buckle
gruppiert werden.