Um Daten zu verfeinern, nimmt man sie von einem Ort, bereinigt und formt sie und schreibt das Ergebnis dann an einen anderen Ort. Zum Bereinigen und Aufbereiten von Tabellendaten können Sie den grafischen Ablaufeditor 'Data Refinery' verwenden.
Bei der Datenbereinigung korrigieren oder entfernen Sie fehlerhafte, unvollständige, falsch formatierte oder doppelt vorhandene Daten. Bei der Datenaufbereitung passen Sie Daten durch Filtern, Sortieren, Kombinieren oder Entfernen von Spalten an.
Sie erstellen einen Data Refinery-Ablauf als Gruppe geordneter Operationen für Daten. Data Refinery umfasst eine grafische Oberfläche zum Erstellen von Datenprofilen für die Datenvalidierung und mehr als 20 anpassbare Diagramme, die Einblicke in Ihre Daten ermöglichen.
- Erforderlicher Service
- watsonx.ai Studio oder IBM Knowledge Catalog
- Datenformat
- Avro, CSV, JSON, Microsoft Excel (xls-und xlsx-Formate. Nur erstes Arbeitsblatt mit Ausnahme von Verbindungen und verbundenen Datenassets. Parquet, SAS mit der Erweiterung "sas7bdat" (schreibgeschützt), TSV (schreibgeschützt) oder Textdatenasset mit Trennzeichen
- Tabellen in relationalen Datenquellen
- Data Size
- Beliebig. Jede. Data Refinery arbeitet mit einem Beispielsubset von Zeilen des Datasets. Die Stichprobengröße beträgt 1 MB oder 10.000 Zeilen, je nachdem, welcher Wert zuerst erreicht wird. Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, wird jedoch das gesamte Dataset verarbeitet. Wenn der Datenfluss Data Refinery mit einem großen Datenasset fehlschlägt, finden Sie weitere Informationen unter Fehlerbehebung für Data Refinery.
Weitere Informationen zum Auswählen des geeigneten Tools für Ihre Daten und Ihren Anwendungsfall finden Sie unter Tool auswählen.
- Voraussetzungen
- Einschränkungen bei Quellendateien
- Einschränkungen bei Zieldateien
- Datenschutzregeln
- Vorschau für Datasets
- Daten verfeinern
Voraussetzungen
Bevor Sie Daten optimieren, müssen Sie ein Projekt erstellen, das Cloud Object Storage verwendet.
Sehen Sie sich dieses Video an, um zu sehen, wie ein Projekt erstellt wird.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Wenn Sie Daten in Cloud- oder lokalen Datenquellen haben, müssen Sie entweder " verbindungen hinzufügen für diese Quellen oder " datenbestände hinzufügen für jede Verbindung eingeben. Wenn Sie in der Lage sein möchten, verfeinerte Daten in Datenquellen in der Cloud oder in lokalen Datenquellen zu speichern, müssen Sie zu diesem Zweck ebenfalls Verbindungen erstellen. In Data Refinery können Quellverbindungen nur zum Lesen von Daten verwendet werden; Zielverbindungen können nur zum Schreiben von Daten verwendet werden. Beim Erstellen einer Zielverbindung müssen Berechtigungsnachweise mit Schreibberechtigung verwendet werden. Andernfalls können Sie die Ausgabe Ihres Data Refinery-Ablaufs nicht an der Zielposition speichern.
In diesem Video wird gezeigt, wie eine Verbindung erstellt und verbundene Daten zu einem Projekt hinzugefügt werden.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Einschränkungen bei Quellendateien
CSV-Dateien
Stellen Sie sicher, dass die CSV-Dateien korrekt formatiert sind und den folgenden Regeln entsprechen:
- Zwei aufeinanderfolgende Kommas in einer Zeile geben eine leere Spalte an.
- Wenn eine Zeile mit einem Komma endet, wird eine zusätzliche Spalte erstellt.
Wenn Ihre CVS-Datei schädliche Nutzdaten (z. B. Formeln) in einem Eingabefeld enthält, können diese Elemente ausgeführt werden.
Leerzeichen werden als Bestandteil der Daten eingestuft
Wenn Ihre Daten Spalten mit Leerzeichen (Leerraum) enthalten, werden die Leerzeichen von Data Refinery als Bestandteil der Daten eingestuft, auch wenn sie im Raster nicht erkennbar sind. Einige Datenbanktools füllen Zeichenfolgen mit Leerzeichen auf, damit alle Daten in einer Spalte gleich lang sind. Diese Änderung hat Auswirkungen auf die Ergebnisse von Data Refinery-Operationen aus, die Daten vergleichen.
Spaltennamen
Stellen Sie sicher, dass die Spaltennamen den folgenden Regeln entsprechen:
- Doppelte Spaltennamen sind nicht zulässig. Spaltennamen müssen innerhalb des Datasets eindeutig sein. Bei Spaltennamen wird die Groß-/Kleinschreibung nicht beachtet. Ein Dataset, das einen Spaltennamen "Sales" und einen anderen Spaltennamen "sales" enthält, funktioniert nicht.
- Die Spaltennamen sind keine reservierten Wörter in der Programmiersprache R.
- Die Spaltennamen sind keine Zahlen. Als Ausweichlösung können die Spaltennamen in Anführungszeichen ("") eingeschlossen werden.
Datasets mit Spalten, die den Datentyp 'Other' aufweisen, werden in Data Refinery-Abläufen nicht unterstützt
Wenn Ihr Datensatz Spalten mit Datentypen enthält, die in der watsonx.ai Studio-Vorschau als "Other" gekennzeichnet sind, werden die Spalten in der Data Refinery als String-Datentyp angezeigt. Wenn Sie jedoch versuchen, die Daten in einem Datenrefinery-Flow zu verwenden, schlägt der Job für den Datenrefinery-Fluss fehl. Ein Beispiel für einen Datentyp, der in der Vorschau als 'Other' dargestellt wird, ist der Db2-Datentyp DECFLOAT.
Einschränkungen bei Zieldateien
Die folgende Einschränkung gilt, wenn Sie die Data Refinery -Datenflussausgabe (das Zieldataset) in einer Datei speichern:
- Sie können das Dateiformat nicht ändern, wenn die Datei ein vorhandenes Datenasset ist.
Datenschutzregeln
Data Refinery unterstützt keine Datenschutzregeln für die Zeilenfilterung. Data Refinery -Jobs können fehlschlagen, wenn das Asset durch Datenschutzregeln für Zeilenfilterung gesteuert wird. Wenn Sie außerdem ein Asset aus IBM Knowledge Catalog zu einem Projekt hinzufügen, das durch Datenschutzregeln für Zeilenfilterung reguliert wird, wird die Maskierung in Data Refinerynicht umgesetzt. Weitere Informationen finden Sie unter Durchsetzung von Datenschutzregeln.
Vorschau für Datasets
Data Refinery bietet Unterstützung für umfangreiche Datensätze, deren Verfeinerung zeitintensiv und umständlich sein kann. Um Ihnen ein schnelles und effizientes Arbeiten zu ermöglichen, arbeitet Data Refinery mit einem Subset von Zeilen im Dataset, während Sie die Daten interaktiv verfeinern. Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, wird dabei das gesamte Dataset bearbeitet.
Daten verfeinern
Im folgenden Video wird gezeigt, wie Sie Daten verfeinern.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Videomitschrift Zeit Transkription 00:00 Das Video zeigt, wie Rohdaten mit Data Refinery geformt werden. 00:05 Beginnen Sie mit der Verfeinerung von Daten aus einem Projekt, indem das Datenasset anzeigen und in Data Refinery öffnen. 00:14 Das Teilfenster "Information" enthält den Namen für den Datenfluss und für die Datenflussausgabe, nachdem Sie die Daten verfeinert haben. 00:23 Auf der Registerkarte "Daten" wird eine Beispielgruppe der Zeilen und Spalten im Dataset angezeigt. 00:29 Um die Leistung zu verbessern, werden nicht alle Zeilen im Shaper angezeigt. 00:33 Sie können jedoch sicher sein, dass nach der Datenverfeinerung der Datenfluss für die vollständige Datei ausgeführt wird. 00:41 Auf der Registerkarte "Profil" werden Häufigkeits-und Auswertungsstatistiken für jede Ihrer Spalten angezeigt. 00:49 Die Registerkarte "Visualisierungen" stellt Datenvisualisierungen für die Spalten bereit, an denen Sie interessiert sind. 00:57 Vorgeschlagene Diagrammtypen sind jeweils durch einen blauen Punkt neben dem entsprechenden Symbol gekennzeichnet. 01:03 Verwenden Sie die unterschiedlichen in den Diagrammen verfügbaren Perspektiven, um Muster, Verbindungen und Beziehungen innerhalb der Daten zu aufzudecken. 01:12 Nun, lassen Sie uns eine gewisse Datenaufbereitung durchführen. 01:17 Beginnen Sie mit einer einfachen Operation, wie z. B. der Sortierung nach der angegebenen Spalte-in diesem Fall der Spalte "Jahr". 01:27 Wenn Sie sich auf Verspätungen nur für eine bestimmte Fluggesellschaft konzentrieren möchten, können Sie die Daten so filtern, dass nur die Zeilen angezeigt werden, in denen die eindeutige Fluggesellschaft "United Airlines" ist. 01:47 Auch die Verspätungen insgesamt sind interessant. 01:50 Erstellen Sie dazu eine neue Spalte, um die Verspätungen bei Ankunft und Abflug zu kombinieren. 01:56 Beachten Sie, dass der Spaltentyp als ganze Zahl abgeleitet wird. 02:00 Wählen Sie die Spalte Abfahrtsverzögerung aus und verwenden Sie die Operation "Berechnen". 02:09 In diesem Fall fügen Sie die Spalte "Ankunftsverzögerung" zur ausgewählten Spalte hinzu und erstellen eine neue Spalte mit der Bezeichnung "TotalDelay". 02:23 Sie können die neue Spalte am Ende der Spaltenliste oder neben der ursprünglichen Spalte positionieren. 02:31 Wenn Sie die Operation anwenden, wird die neue Spalte neben der Spalte 'Abgangsverzögerung' angezeigt. 02:38 Wenn Sie einen Fehler machen oder einfach eine Änderung vornehmen möchten, rufen Sie einfach die Anzeige "Schritte" auf und löschen Sie diesen Schritt. 02:46 Dadurch wird die betreffende Operation rückgängig gemacht. 02:50 Sie können auch die Schaltflächen für Wiederholen und Widerrufen verwenden. 02:56 Als Nächstes möchten Sie sich auf die Spalte "TotalDelay" konzentrieren, damit Sie die Spalte mit der Operation "Auswählen" an den Anfang verschieben können. 03:09 Dieser Befehl ordnet die Spalte "TotalDelay" als erste in der Liste an, und alles andere kommt danach. 03:21 Verwenden Sie anschließend die Operation "group_by", um die Daten in Gruppen nach Jahr, Monat und Tag aufzuteilen. 03:32 Wenn Sie also die Spalte "TotalDelay" auswählen, sehen Sie die Spalten "Year", "Month", "DayofMonth", und "TotalDelay". 03:44 Schließlich möchten Sie den Mittelwert der Spalte "TotalDelay" ermitteln. 03:48 Wenn Sie das Menü "Operationen" erweitern, finden Sie im Abschnitt "Organisieren" die Operation "Aggregieren", die die Funktion "Mittelwert" enthält. 04:08 Jetzt haben Sie eine neue Spalte mit der Bezeichnung "AverageDelay", die den Durchschnitt für die Gesamtverzögerung darstellt. 04:17 Führen Sie nun den Datenfluss aus und speichern und erstellen Sie den Job. 04:24 Geben Sie einen Namen für den Job an und fahren Sie mit der nächsten Anzeige fort. 04:28 Mit dem Schritt "Konfigurieren" können Sie die Ein-und Ausgabe Ihrer Jobausführung überprüfen. 04:36 Wählen Sie die Umgebung aus, in der der Job ausgeführt wird. 04:41 Die Zeitplanung für einen Job ist optional, aber Sie können ein Datum festlegen und den Job wiederholen, wenn Sie möchten. 04:51 Sie können Benachrichtigungen für diesen Job empfangen. 04:56 Alles sieht gut aus. Erstellen und führen Sie den Job nun aus. 05:00 Dies kann mehrere Minuten dauern, da der Datenfluss für die vollständige Datei ausgeführt wird. 05:06 In der Zwischenzeit können Sie den Status anzeigen. 05:12 Wenn die Ausführung konkurriert, können Sie zur Registerkarte "Assets" im Projekt zurückkehren. 05:20 Öffnen Sie den Datenfluss Data Refinery , um die Daten weiter zu optimieren. 05:28 Sie könnten zum Beispiel die Spalte "AverageDelay" in absteigender Reihenfolge sortieren. 05:36 Bearbeiten Sie jetzt die Ablaufeinstellungen. 05:39 In der Anzeige "Allgemein" können Sie den Namen des Data Refinery -Ablaufs ändern. 05:46 In der Anzeige "Quellendatasets" können Sie das Beispiel oder Format für das Quellendataset bearbeiten oder die Datenquelle ersetzen. 05:56 In der Anzeige "Zieldataset" können Sie eine alternative Position angeben, z. B. eine externe Datenquelle. 06:06 Sie können auch die Eigenschaften für das Ziel bearbeiten, z. B. den Schreibmodus, das Dateiformat und den Namen des Dataset-Assets. 06:21 Führen Sie nun den Datenfluss erneut aus. Speichern und zeigen Sie die Jobs nun jedoch an. 06:28 Wählen Sie den Job, der angezeigt werden soll, in der Liste aus und führen Sie den Job aus. 06:41 Kehren Sie nach Abschluss der Ausführung zum Projekt zurück. 06:46 Auf der Registerkarte "Assets" werden alle drei Dateien angezeigt: 06:51 Das Original. 06:54 Der erste verfeinerte Datensatz, der den "AverageDelay" unsortiert zeigt. 07:02 Und der zweite Datensatz, der die Spalte "AverageDelay" in absteigender Reihenfolge zeigt. 07:11 Auf der Registerkarte "Assets" befindet sich der Ablauf Data Refinery . 07:19 Weitere Videos finden Sie in der Dokumentation zu Cloud Pak for Data as a Service.
1. Zugriff auf Data Refinery aus einem Projekt heraus. Klicken Sie auf Neues Asset > Daten vorbereiten und visualisieren. Wählen Sie dann die Daten aus, mit denen Sie arbeiten wollen. Alternativ können Sie auf der Registerkarte Assets eines Projekts auf ein Daten-Asset klicken, um es in der Vorschau anzuzeigen, und dann auf Daten vorbereiten klicken.
2. Führen Sie mithilfe von Schritten Operationen zum Bereinigen, Formen und Aufbereiten Ihrer Daten aus. Durchsuchen Sie Operationskategorien oder suchen Sie eine bestimmte Operation und folgen Sie dann der Anleitung in der Benutzerschnittstelle. Sie können in der Befehlszeile R-Code eingeben und mithilfe der automatischen Vervollständigung die korrekte Syntax erstellen. Während Sie Operationen auf ein Dataset anwenden, verfolgt (überwacht) Data Refinery diese und erstellt einen Data Refinery-Ablauf. Für jede Operation, die Sie anwenden, fügt Data Refinery einen Schritt hinzu.
Daten-Registerkarte '
'
Wenn Sie Daten mit Datentypen verwenden, die nicht aus Zeichenfolgen bestehen, wird als erster Schritt im Data Refinery-Ablauf automatisch die GUI-Operation Spaltentyp konvertieren angewendet, wenn Sie eine Datei in Data Refinery öffnen. Datentypen werden automatisch in abgeleitete Datentypen (wie zum Beispiel "Integer", "Date", "Boolean" usw.) konvertiert. Sie können diesen Schritt rückgängig machen oder bearbeiten.
3. Klicken Sie auf die Registerkarte Profil , um während des gesamten Datenoptimierungsprozesses Ihre Daten zu validieren .
Profil-Registerkarte '
'
4. Klicken Sie auf die Registerkarte Visualizations (Visualisierungen), um die Daten in Diagrammen darzustellen . Decken Sie Muster, Trends und Korrelationen in Ihren Daten auf.
Registerkarte Visualisierungen '
'
5. Verfeinern Sie das Beispieldataset Ihren Anforderungen entsprechend.
6. Klicken Sie in der Symbolleiste auf Job speichern und erstellen oder auf Jobs speichern und anzeigen , um den Ablauf Data Refinery für das gesamte Dataset auszuführen. Wählen Sie die Laufzeit aus und fügen einen Zeitplan für die einmalige oder die wiederkehrende Ausführung hinzu. Informationen zu Jobs finden Sie unter Jobs in Data Refinery.
Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, wird das gesamte Dataset verarbeitet. So kann der Auftrag je nach den Umwandlungen und der im Datenfluss verarbeiteten Datenmenge möglicherweise einen großen Ausgabedatensatz (Ziel) erzeugen. Standardmäßig wird das Ergebnis des Data Refinery als Daten-Asset im Projekt gespeichert.
Informationen zu den Aktionen, die Sie beim Optimieren Ihrer Daten ausführen können, finden Sie unter Data Refinery -Abläufe verwalten.
Nächster Schritt
Weitere Informationen
Übergeordnetes Thema: Daten vorbereiten