SPSS Modeler verwendet einen Extraktionsprozess, der sich auf linguistische Ressourcen stützt. Diese linguistischen Ressourcen dienen als Grundlage für die Verarbeitung der Textdaten und die Extraktion von Informationen, um die Konzepte, Typen und manchmal auch Muster zu ermitteln.
Die sprachlichen Mittel können in verschiedene Arten unterteilt werden:
- Kategoriensets
- Kategorien sind eine Gruppe von eng verwandten Ideen und Mustern, denen die Textdaten durch ein Scoring-Verfahren zugeordnet werden.
- Bibliotheken
- Bibliotheken werden als Bausteine für TAPs und Vorlagen verwendet. Jede Bibliothek besteht aus mehreren Wörterbüchern, die zur Definition und Verwaltung von Begriffen, Synonymen und Ausschlusslisten verwendet werden. Während Wörterbücher auch einzeln bezogen werden können, werden sie in Vorlagen und TAPs vorab gemeinsam verpackt.
- Vorlagen
- Die Vorlagen bestehen aus einer Reihe von Bibliotheken und einigen fortgeschrittenen linguistischen und nicht-linguistischen Ressourcen. Diese Ressourcen bilden einen spezialisierten Satz, der an einen bestimmten Bereich oder Kontext angepasst ist, wie z. B. Produktmeinungen.
- Textanalyse-Pakete (TAP)
- Ein Textanalysepaket ist eine vordefinierte Vorlage, die mit einem oder mehreren Kategoriensets gebündelt ist. TAPs bündeln diese Ressourcen, so dass die Kategorien und die Ressourcen, die zu ihrer Erstellung verwendet wurden, zusammen gespeichert und wiederverwendet werden können. Sie können dann eine TAP wiederverwenden, um die gleichen Kategorien und Ressourcen auf andere Bewegungen anzuwenden.
Benutzerdefinierte linguistische Ressourcen
SPSS Modeler verfügt standardmäßig über eine Reihe spezialisierter linguistischer Ressourcen. Sie können diese linguistischen Ressourcen nutzen, um von der Forschung und Feinabstimmung für bestimmte Sprachen und spezifische Anwendungen zu profitieren. Diese sprachlichen Ressourcen sind jedoch möglicherweise nicht für Ihren Kontext oder Ihre Daten optimiert. Sie können Ihre Änderungen an diesen linguistischen Ressourcen bearbeiten und speichern, um den Extraktionsprozess für Ihren Fluss zu optimieren.
Sie können auch benutzerdefinierte linguistische Ressourcen erstellen und importieren, die genau auf die Daten Ihres Unternehmens abgestimmt sind. Sie können lokale Dateien verwenden, um diese sprachlichen Ressourcen zwischen Benutzern und Projekten auszutauschen. Sie können eine Vorlage, eine Bibliothek oder eine TAP als Projektbestandteil aus einer lokalen Datei hinzufügen.