0 / 0
Zurück zur englischen Version der Dokumentation
Datenveredlung
Letzte Aktualisierung: 04. Dez. 2024
Datenveredlung

Um Daten zu verfeinern, nimmt man sie von einem Ort, bereinigt und formt sie und schreibt das Ergebnis dann an einen anderen Ort. Zum Bereinigen und Aufbereiten von Tabellendaten können Sie den grafischen Ablaufeditor 'Data Refinery' verwenden.

Bei der Datenbereinigung korrigieren oder entfernen Sie fehlerhafte, unvollständige, falsch formatierte oder doppelt vorhandene Daten. Bei der Datenaufbereitung passen Sie Daten durch Filtern, Sortieren, Kombinieren oder Entfernen von Spalten an.

Sie erstellen einen Data Refinery-Ablauf als Gruppe geordneter Operationen für Daten. Data Refinery umfasst eine grafische Oberfläche zum Erstellen von Datenprofilen für die Datenvalidierung und mehr als 20 anpassbare Diagramme, die Einblicke in Ihre Daten ermöglichen.

Datenformat
Avro, CSV, JSON, Microsoft Excel (xls-und xlsx-Formate. Nur erstes Arbeitsblatt mit Ausnahme von Verbindungen und verbundenen Datenassets. Parquet, SAS mit der Erweiterung "sas7bdat" (schreibgeschützt), TSV (schreibgeschützt) oder Textdatenasset mit Trennzeichen
Tabellen in relationalen Datenquellen
Data Size
Beliebig. Jede. Data Refinery arbeitet mit einem Beispielsubset von Zeilen des Datasets. Der Stichprobenumfang beträgt 1 MB oder 10.000 Zeilen, je nachdem, welcher Wert zuerst erreicht wird. Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, wird jedoch das gesamte Dataset verarbeitet. Wenn der Datenfluss Data Refinery mit einem großen Datenasset fehlschlägt, finden Sie weitere Informationen unter Fehlerbehebung für Data Refinery.

Voraussetzungen

Bevor Sie Daten verfeinern können, benötigen Sie ein Projekt, das Cloud Object Storage verwendet. Sie können das Sandbox-Projekt verwenden oder ein neues Projekt erstellen.


Sehen Sie sich dieses Video an, um zu sehen, wie ein Projekt erstellt wird.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.



Wenn Sie Daten in Cloud- oder lokalen Datenquellen haben, müssen Sie entweder " verbindungen hinzufügen für diese Quellen oder " datenbestände hinzufügen für jede Verbindung eingeben. Wenn Sie in der Lage sein möchten, verfeinerte Daten in Datenquellen in der Cloud oder in lokalen Datenquellen zu speichern, müssen Sie zu diesem Zweck ebenfalls Verbindungen erstellen. In Data Refinery können Quellverbindungen nur zum Lesen von Daten verwendet werden; Zielverbindungen können nur zum Schreiben von Daten verwendet werden. Beim Erstellen einer Zielverbindung müssen Berechtigungsnachweise mit Schreibberechtigung verwendet werden. Andernfalls können Sie die Ausgabe Ihres Data Refinery-Ablaufs nicht an der Zielposition speichern.


In diesem Video wird gezeigt, wie eine Verbindung erstellt und verbundene Daten zu einem Projekt hinzugefügt werden.
Video-Haftungsausschluss: Einige untergeordnete Schritte und grafische Elemente in diesem Video können von Ihrer Plattform abweichen.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.


Einschränkungen bei Quellendateien

CSV-Dateien

Stellen Sie sicher, dass die CSV-Dateien korrekt formatiert sind und den folgenden Regeln entsprechen:

  • Zwei aufeinanderfolgende Kommas in einer Zeile geben eine leere Spalte an.
  • Wenn eine Zeile mit einem Komma endet, wird eine zusätzliche Spalte erstellt.
Hinweis:

Wenn Ihre CVS-Datei schädliche Nutzdaten (z. B. Formeln) in einem Eingabefeld enthält, können diese Elemente ausgeführt werden.

Leerzeichen werden als Bestandteil der Daten eingestuft

Wenn Ihre Daten Spalten mit Leerzeichen (Leerraum) enthalten, werden die Leerzeichen von Data Refinery als Bestandteil der Daten eingestuft, auch wenn sie im Raster nicht erkennbar sind. Einige Datenbanktools füllen Zeichenfolgen mit Leerzeichen auf, damit alle Daten in einer Spalte gleich lang sind. Diese Änderung hat Auswirkungen auf die Ergebnisse von Data Refinery-Operationen aus, die Daten vergleichen.

Spaltennamen

Stellen Sie sicher, dass die Spaltennamen den folgenden Regeln entsprechen:

  • Doppelte Spaltennamen sind nicht zulässig. Spaltennamen müssen im Dataset eindeutig sein. Bei Spaltennamen muss die Groß-/Kleinschreibung nicht beachtet werden. Ein Dataset, das einen Spaltennamen "Sales" und einen anderen Spaltennamen "sales" enthält, funktioniert nicht.
  • Die Spaltennamen sind keine reservierten Wörter in der Programmiersprache R.
  • Die Spaltennamen sind keine Zahlen. Als Ausweichlösung können die Spaltennamen in Anführungszeichen ("") eingeschlossen werden.

Datasets mit Spalten, die den Datentyp 'Other' aufweisen, werden in Data Refinery-Abläufen nicht unterstützt

Wenn Ihr Datensatz Spalten mit Datentypen enthält, die in der watsonx.ai Studio-Vorschau als "Other" gekennzeichnet sind, werden die Spalten in der Data Refinery als String-Datentyp angezeigt. Wenn Sie jedoch versuchen, die Daten in einem Datenrefinery-Flow zu verwenden, schlägt der Job für den Datenrefinery-Fluss fehl. Ein Beispiel für einen Datentyp, der in der Vorschau als 'Other' dargestellt wird, ist der Db2-Datentyp DECFLOAT.

Einschränkungen bei Zieldateien

Die folgende Einschränkung gilt, wenn Sie die Data Refinery -Datenflussausgabe (das Zieldataset) in einer Datei speichern:

  • Sie können das Dateiformat nicht ändern, wenn die Datei ein vorhandenes Datenasset ist.

Vorschau für Datasets

Data Refinery bietet Unterstützung für umfangreiche Datensätze, deren Verfeinerung zeitintensiv und umständlich sein kann. Um Ihnen ein schnelles und effizientes Arbeiten zu ermöglichen, arbeitet Data Refinery mit einem Subset von Zeilen im Dataset, während Sie die Daten interaktiv verfeinern. Wenn Sie den einen Job für den Data Refinery-Ablauf ausführen, wird dabei das gesamte Dataset bearbeitet.

Daten verfeinern

In diesem Video wird gezeigt, wie Sie Daten verfeinern.

Video-Haftungsausschluss: Einige untergeordnete Schritte und grafische Elemente in diesem Video können von Ihrer Plattform abweichen.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.


1. Zugriff auf Data Refinery aus einem Projekt heraus. Klicken Sie auf Neues Asset > Daten vorbereiten und visualisieren. Wählen Sie dann die Daten aus, mit denen Sie arbeiten wollen. Alternativ können Sie auf der Registerkarte Assets eines Projekts auf ein Daten-Asset klicken, um es in der Vorschau anzuzeigen, und dann auf Daten vorbereiten klicken.

2. Führen Sie mithilfe von Schritten Operationen zum Bereinigen, Formen und Aufbereiten Ihrer Daten aus. Durchsuchen Sie Operationskategorien oder suchen Sie eine bestimmte Operation und folgen Sie dann der Anleitung in der Benutzerschnittstelle. Sie können in der Befehlszeile R-Code eingeben und mithilfe der automatischen Vervollständigung die korrekte Syntax erstellen. Während Sie Operationen auf ein Dataset anwenden, verfolgt (überwacht) Data Refinery diese und erstellt einen Data Refinery-Ablauf. Für jede Operation, die Sie anwenden, fügt Data Refinery einen Schritt hinzu.

Daten-Registerkarte '
' Registerkarte 'Daten'

Wenn Sie Daten mit Datentypen verwenden, die nicht aus Zeichenfolgen bestehen, wird als erster Schritt im Data Refinery-Ablauf automatisch die GUI-Operation Spaltentyp konvertieren angewendet, wenn Sie eine Datei in Data Refinery öffnen. Datentypen werden automatisch in abgeleitete Datentypen (wie zum Beispiel "Integer", "Date", "Boolean" usw.) konvertiert. Sie können diesen Schritt rückgängig machen oder bearbeiten.

3. Klicken Sie auf die Registerkarte Profil , um während des gesamten Datenoptimierungsprozesses Ihre Daten zu validieren .

Profil-Registerkarte '
' Registerkarte 'Profil'

4. Klicken Sie auf die Registerkarte Visualizations (Visualisierungen), um die Daten in Diagrammen darzustellen . Decken Sie Muster, Trends und Korrelationen in Ihren Daten auf.

Registerkarte Visualisierungen '
' Registerkarte 'Visualisierungen'

5. Verfeinern Sie das Beispieldataset Ihren Anforderungen entsprechend.

6. Klicken Sie in der Symbolleiste auf Job speichern und erstellen oder auf Jobs speichern und anzeigen , um den Ablauf Data Refinery für das gesamte Dataset auszuführen. Wählen Sie die Laufzeit aus und fügen einen Zeitplan für die einmalige oder die wiederkehrende Ausführung hinzu. Informationen zu Jobs finden Sie unter Jobs in Data Refinery.

Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, wird das gesamte Dataset verarbeitet. So kann der Auftrag je nach den Umwandlungen und der im Datenfluss verarbeiteten Datenmenge möglicherweise einen großen Ausgabedatensatz (Ziel) erzeugen. Standardmäßig wird das Ergebnis des Data Refinery als Daten-Asset im Projekt gespeichert.

Informationen zu den Aktionen, die Sie beim Optimieren Ihrer Daten ausführen können, finden Sie unter Data Refinery -Abläufe verwalten.

Nächster Schritt

Daten analysieren und Modelle erstellen

Weitere Informationen

Übergeordnetes Thema: Daten vorbereiten

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen