Bevor Sie mit dem Mining von Daten und der Erstellung von Modellen in SPSS Modeler beginnen, müssen Sie Ihre Daten vorbereiten. Die Aufbereitung Ihrer Daten bedeutet, dass Sie sich die Zeit nehmen, die Daten zu verstehen und sie so zu verarbeiten, dass sie für die Verwendung im Data Mining optimiert sind.
Die Qualität Ihrer Daten kann die Qualität Ihrer Modelle bestimmen. Durch die Aufbereitung Ihrer Daten wird sichergestellt, dass Ihre Daten sauber und für die Analyse bereit sind.
SPSS Modeler basiert auf der Methodik des Cross-Industry Standard Process for Data Mining (CRISP-DM). der die folgenden Phasen umfasst.
- Untersuchung der Geschäftsziele
- Datenuntersuchung
- Datenaufbereitung
- Modellierung
- Evaluierung
- Bereitstellung
In den ersten drei Phasen werden die Daten gesammelt, bewertet und aufbereitet. Ein Teil dieser Arbeit kann in SPSS Modeler erledigt werden, aber ein Teil der Arbeit in diesen Phasen geschieht bereits vor der Arbeit in SPSS Modeler.
Untersuchung der Geschäftsziele
Bevor Sie mit SPSS Modeler beginnen, ist es wichtig, so viel Einblick wie möglich in die Unternehmensziele für Data Mining zu erhalten. Verstehen Sie z. B. die Unternehmensperspektive, um Schmerzpunkte, Projektanforderungen und Unternehmensziele für Data Mining zu bestimmen, und um herauszufinden, wie Data Mining nützliche Informationen zur Lösung von Unternehmensproblemen liefern kann.
Diese Phase der Datenerfassung und -aufbereitung erfolgt außerhalb von SPSS Modeler. Diese Arbeit kann jedoch Aufschluss darüber geben, welche Daten gesammelt werden müssen und auf welche Daten man sich konzentrieren sollte.
Datenuntersuchung
Zum Verstehen Ihrer Daten gehört es, die Daten zu bewerten und zu untersuchen, um die Qualität der Daten zu bestimmen. Nehmen Sie sich die Zeit, die Datenstruktur, Beziehungen und Muster zu verstehen, indem Sie Techniken wie Datenvisualisierung, zusammenfassende Statistiken und Korrelationsanalysen verwenden. Dieser Schritt ist entscheidend, um unerwartete Probleme bei der Datenaufbereitung zu vermeiden.
SPSS Modeler verfügt über einen Audit-Knoten, den Sie für einen umfassenden ersten Blick auf die Daten verwenden können. Es kann Informationen wie zusammenfassende Statistiken, Histogramme, Boxplots, Balkendiagramme, Tortendiagramme und mehr generieren. Diese Informationen können nützlich sein, um ein erstes Verständnis der Daten zu erlangen. Es kann auch Informationen über Ausreißer, Extremwerte und fehlende Werte generieren.
Wenn Sie Zugang zu diesen anderen Diensten auf Cloud Pak for Data haben, können sie ebenfalls nützlich sein;
- Data Refinery
- Sie können Data Refinery verwenden, um Ihre Daten zu verstehen und zu visualisieren.
- MANTA Automated Data Lineage
- Sie können MANTA Automated Data Lineage verwenden, um die Herkunft von Daten zu verfolgen und zu finden.
- RStudio®
- RStudio ist hilfreich für die Ausführung von Befehlen in R, um Ihre Daten zu untersuchen.
Datenaufbereitung
Die Datenaufbereitung ist einer der wichtigsten Teile des Data Mining und kann einen erheblichen Teil der für das Gesamtprojekt erforderlichen Arbeit ausmachen. Wenn Sie sich in den früheren Phasen des Geschäftsverständnisses und des Datenverständnisses anstrengen, können Sie einen Teil dieser Arbeit minimieren, aber Sie müssen immer noch Aufwand betreiben, um die Daten für das Mining vorzubereiten und zu verpacken.
Gehen Sie die folgenden Aktivitäten durch, um Ihre Daten vorzubereiten. Diese Aktivitäten sind erforderlich, um sicherzustellen, dass die Daten gut vorbereitet, sauber und für die Analyse bereit sind.
- Datenbereinigung
- Es ist wichtig, fehlende Werte zu behandeln, Duplikate zu entfernen und Formatierungsprobleme zu korrigieren.
- Datenkonvertierung
- Standardisieren und normalisieren Sie Ihre Daten, um Konsistenz zu gewährleisten und Rauschen zu reduzieren. Diese Schritte können Skalierung, Z-Score-Normalisierung oder One-Hot-Codierung umfassen.
- Datenreduktion
- Reduzieren Sie die Dimensionalität Ihrer Daten, indem Sie die relevantesten Merkmale auswählen. Sie können Techniken wie die Hauptkomponentenanalyse (PCA), die lineare Diskriminanzanalyse (LDA) oder die t-verteilte stochastische Nachbarschaftseinbettung (t-SNE) verwenden.
- Datenintegration
- Führen Sie Daten aus verschiedenen Quellen zusammen, um einen umfassenderen Überblick über Ihre Daten zu erhalten. Möglicherweise müssen Sie Tabellen verbinden, Datensätze zusammenführen oder Datenfusionstechniken anwenden.
- Datenvalidierung
- Überprüfen Sie Ihre Daten, um sicherzustellen, dass sie genau und zuverlässig sind. Sie können nach Ausreißern suchen, die Variabilität bewerten oder die Daten mit externen Quellen vergleichen.
- Datenspeicher
- Speichern Sie Ihre Daten auf eine sichere, zugängliche und reproduzierbare Weise. Sie können Ihre Daten in Datenbanken, Data Warehouses oder Cloud-Speicherlösungen speichern.
SPSS Modeler verfügt über mehrere Knoten, die Sie für diese Datenvorbereitungsaktivitäten verwenden können. Sie können eine Kombination aus Knoten für Datensatzoperationen und Knoten für Feldoperationen verwenden, um Abläufe zur Vorbereitung der Daten zu erstellen.
Wenn Sie Zugang zu den folgenden Diensten haben, können Sie diese auch zur Datenaufbereitung nutzen.
- Data Refinery
- Sie können Data Refinery zum Bereinigen und Umwandeln von Daten verwenden, ohne Programmierkenntnisse zu benötigen.
- DataStage
- Sie können DataStage für die Datenintegration und die Entwicklung von Flüssen zur Verarbeitung und Umwandlung von Daten verwenden.
- IBM® Knowledge Catalog
- Sie können IBM Knowledge Catalog für die Analyse und Verbesserung der Datenqualität verwenden, und es kann auch für die Zuordnung von Klassifikationen, Datenklassen und Geschäftsbegriffen zu Ihren Datenbeständen verwendet werden
- RStudio
- Sie können RStudio verwenden, um Befehle in R auszuführen und Ihre Daten zu untersuchen.
Auch wenn es sich nicht um ihre eigenen Daten handelt, sollten die Nutzer die gleichen Aktivitäten durchführen, um diese Daten zu verstehen.