Um Daten zu verfeinern, nimmt man sie von einem Ort, bereinigt und formt sie und schreibt das Ergebnis dann an einen anderen Ort. Zum Bereinigen und Aufbereiten von Tabellendaten können Sie den grafischen Ablaufeditor 'Data Refinery' verwenden.
Bei der Datenbereinigung korrigieren oder entfernen Sie fehlerhafte, unvollständige, falsch formatierte oder doppelt vorhandene Daten. Bei der Datenaufbereitung passen Sie Daten durch Filtern, Sortieren, Kombinieren oder Entfernen von Spalten an.
Sie erstellen einen Data Refinery-Ablauf als Gruppe geordneter Operationen für Daten. Data Refinery umfasst eine grafische Oberfläche zum Erstellen von Datenprofilen für die Datenvalidierung und mehr als 20 anpassbare Diagramme, die Einblicke in Ihre Daten ermöglichen.
Erforderlicher Service
watsonx.ai Studio oder IBM Knowledge Catalog
Datenformat
Avro, CSV, JSON, Microsoft Excel (xls-und xlsx-Formate. Nur erstes Arbeitsblatt mit Ausnahme von Verbindungen und verbundenen Datenassets. Parquet, SAS mit der Erweiterung "sas7bdat" (schreibgeschützt), TSV (schreibgeschützt) oder Textdatenasset mit Trennzeichen
Tabellen in relationalen Datenquellen
Data Size
Beliebig. Jede. Data Refinery arbeitet mit einem Beispielsubset von Zeilen des Datasets. Die Stichprobengröße beträgt 1 MB oder 10.000 Zeilen, je nachdem, welcher Wert zuerst erreicht wird. Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, wird jedoch das gesamte Dataset verarbeitet. Wenn der Datenfluss Data Refinery mit einem großen Datenasset fehlschlägt, finden Sie weitere Informationen unter Fehlerbehebung für Data Refinery.
Weitere Informationen zum Auswählen des geeigneten Tools für Ihre Daten und Ihren Anwendungsfall finden Sie unter Tool auswählen.
Bevor Sie Daten optimieren, müssen Sie ein Projekt erstellen, das Cloud Object Storage verwendet.
Sehen Sie sich dieses Video an, um zu sehen, wie ein Projekt erstellt wird.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Wenn Sie Daten in Cloud- oder lokalen Datenquellen haben, müssen Sie entweder " verbindungen hinzufügen für diese Quellen oder " datenbestände hinzufügen für jede Verbindung eingeben. Wenn Sie in der Lage sein möchten, verfeinerte Daten in Datenquellen in der Cloud oder in lokalen Datenquellen zu speichern, müssen Sie zu diesem Zweck ebenfalls Verbindungen erstellen. In Data Refinery können Quellverbindungen nur zum Lesen von Daten verwendet werden; Zielverbindungen können nur zum Schreiben von Daten verwendet werden. Beim Erstellen einer Zielverbindung müssen Berechtigungsnachweise mit Schreibberechtigung verwendet werden. Andernfalls können Sie die Ausgabe Ihres Data Refinery-Ablaufs nicht an der Zielposition speichern.
In diesem Video wird gezeigt, wie eine Verbindung erstellt und verbundene Daten zu einem Projekt hinzugefügt werden.
Video-Haftungsausschluss: Einige untergeordnete Schritte und grafische Elemente in diesem Video können von Ihrer Plattform abweichen.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Einschränkungen bei Quellendateien
Copy link to section
CSV-Dateien
Copy link to section
Stellen Sie sicher, dass die CSV-Dateien korrekt formatiert sind und den folgenden Regeln entsprechen:
Zwei aufeinanderfolgende Kommas in einer Zeile geben eine leere Spalte an.
Wenn eine Zeile mit einem Komma endet, wird eine zusätzliche Spalte erstellt.
Hinweis:
Wenn Ihre CVS-Datei schädliche Nutzdaten (z. B. Formeln) in einem Eingabefeld enthält, können diese Elemente ausgeführt werden.
Leerzeichen werden als Bestandteil der Daten eingestuft
Copy link to section
Wenn Ihre Daten Spalten mit Leerzeichen (Leerraum) enthalten, werden die Leerzeichen von Data Refinery als Bestandteil der Daten eingestuft, auch wenn sie im Raster nicht erkennbar sind. Einige Datenbanktools füllen Zeichenfolgen mit Leerzeichen auf, damit alle Daten in einer Spalte gleich lang sind. Diese Änderung hat Auswirkungen auf die Ergebnisse von Data Refinery-Operationen aus, die Daten vergleichen.
Spaltennamen
Copy link to section
Stellen Sie sicher, dass die Spaltennamen den folgenden Regeln entsprechen:
Doppelte Spaltennamen sind nicht zulässig. Spaltennamen müssen innerhalb des Datasets eindeutig sein. Bei Spaltennamen wird die Groß-/Kleinschreibung nicht beachtet. Ein Dataset, das einen Spaltennamen "Sales" und einen anderen Spaltennamen "sales" enthält, funktioniert nicht.
Die Spaltennamen sind keine reservierten Wörter in der Programmiersprache R.
Die Spaltennamen sind keine Zahlen. Als Ausweichlösung können die Spaltennamen in
Anführungszeichen ("") eingeschlossen werden.
Datasets mit Spalten, die den Datentyp 'Other' aufweisen, werden in Data Refinery-Abläufen nicht unterstützt
Copy link to section
Wenn Ihr Datensatz Spalten mit Datentypen enthält, die in der watsonx.ai Studio-Vorschau als "Other" gekennzeichnet sind, werden die Spalten in der Data Refinery als String-Datentyp angezeigt. Wenn Sie jedoch versuchen, die Daten in einem Datenrefinery-Flow zu verwenden, schlägt der Job für den Datenrefinery-Fluss fehl. Ein Beispiel für einen Datentyp, der in der Vorschau als 'Other' dargestellt wird, ist der Db2-Datentyp DECFLOAT.
Einschränkungen bei Zieldateien
Copy link to section
Die folgende Einschränkung gilt, wenn Sie die Data Refinery -Datenflussausgabe (das Zieldataset) in einer Datei speichern:
Sie können das Dateiformat nicht ändern, wenn die Datei ein vorhandenes Datenasset ist.
Datenschutzregeln
Copy link to section
Data Refinery unterstützt keine Datenschutzregeln für die Zeilenfilterung. Data Refinery -Jobs können fehlschlagen, wenn das Asset durch Datenschutzregeln für Zeilenfilterung gesteuert wird. Wenn Sie außerdem ein Asset aus IBM Knowledge Catalog zu einem Projekt hinzufügen, das durch Datenschutzregeln für Zeilenfilterung reguliert wird, wird die Maskierung in Data Refinerynicht umgesetzt. Weitere Informationen finden Sie unter Durchsetzung von Datenschutzregeln.
Vorschau für Datasets
Copy link to section
Data Refinery bietet Unterstützung für umfangreiche Datensätze, deren Verfeinerung zeitintensiv und umständlich sein kann. Um Ihnen ein schnelles und effizientes Arbeiten zu ermöglichen, arbeitet Data Refinery mit einem Subset von Zeilen im Dataset, während Sie die Daten interaktiv verfeinern. Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, wird dabei das gesamte Dataset bearbeitet.
Daten verfeinern
Copy link to section
Im folgenden Video wird gezeigt, wie Sie Daten verfeinern.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Transkript
Videomitschrift
Zeit
Transkription
00:00
Das Video zeigt, wie Rohdaten mit Data Refinery geformt werden.
00:05
Beginnen Sie mit der Verfeinerung von Daten aus einem Projekt, indem das Datenasset anzeigen und in Data Refinery öffnen.
00:14
Das Teilfenster "Information" enthält den Namen für den Datenfluss und für die Datenflussausgabe, nachdem Sie die Daten verfeinert haben.
00:23
Auf der Registerkarte "Daten" wird eine Beispielgruppe der Zeilen und Spalten im Dataset angezeigt.
00:29
Um die Leistung zu verbessern, werden nicht alle Zeilen im Shaper angezeigt.
00:33
Sie können jedoch sicher sein, dass nach der Datenverfeinerung der Datenfluss für die vollständige Datei ausgeführt wird.
00:41
Auf der Registerkarte "Profil" werden Häufigkeits-und Auswertungsstatistiken für jede Ihrer Spalten angezeigt.
00:49
Die Registerkarte "Visualisierungen" stellt Datenvisualisierungen für die Spalten bereit, an denen Sie interessiert sind.
00:57
Vorgeschlagene Diagrammtypen sind jeweils durch einen blauen Punkt neben dem entsprechenden Symbol gekennzeichnet.
01:03
Verwenden Sie die unterschiedlichen in den Diagrammen verfügbaren Perspektiven, um Muster, Verbindungen und Beziehungen innerhalb der Daten zu aufzudecken.
01:12
Nun, lassen Sie uns eine gewisse Datenaufbereitung durchführen.
01:17
Beginnen Sie mit einer einfachen Operation, wie z. B. der Sortierung nach der angegebenen Spalte-in diesem Fall der Spalte "Jahr".
01:27
Wenn Sie sich auf Verspätungen nur für eine bestimmte Fluggesellschaft konzentrieren möchten, können Sie die Daten so filtern, dass nur die Zeilen angezeigt werden, in denen die eindeutige Fluggesellschaft "United Airlines" ist.
01:47
Auch die Verspätungen insgesamt sind interessant.
01:50
Erstellen Sie dazu eine neue Spalte, um die Verspätungen bei Ankunft und Abflug zu kombinieren.
01:56
Beachten Sie, dass der Spaltentyp als ganze Zahl abgeleitet wird.
02:00
Wählen Sie die Spalte Abfahrtsverzögerung aus und verwenden Sie die Operation "Berechnen".
02:09
In diesem Fall fügen Sie die Spalte "Ankunftsverzögerung" zur ausgewählten Spalte hinzu und erstellen eine neue Spalte mit der Bezeichnung "TotalDelay".
02:23
Sie können die neue Spalte am Ende der Spaltenliste oder neben der ursprünglichen Spalte positionieren.
02:31
Wenn Sie die Operation anwenden, wird die neue Spalte neben der Spalte 'Abgangsverzögerung' angezeigt.
02:38
Wenn Sie einen Fehler machen oder einfach eine Änderung vornehmen möchten, rufen Sie einfach die Anzeige "Schritte" auf und löschen Sie diesen Schritt.
02:46
Dadurch wird die betreffende Operation rückgängig gemacht.
02:50
Sie können auch die Schaltflächen für Wiederholen und Widerrufen verwenden.
02:56
Als Nächstes möchten Sie sich auf die Spalte "TotalDelay" konzentrieren, damit Sie die Spalte mit der Operation "Auswählen" an den Anfang verschieben können.
03:09
Dieser Befehl ordnet die Spalte "TotalDelay" als erste in der Liste an, und alles andere kommt danach.
03:21
Verwenden Sie anschließend die Operation "group_by", um die Daten in Gruppen nach Jahr, Monat und Tag aufzuteilen.
03:32
Wenn Sie also die Spalte "TotalDelay" auswählen, sehen Sie die Spalten "Year", "Month", "DayofMonth", und "TotalDelay".
03:44
Schließlich möchten Sie den Mittelwert der Spalte "TotalDelay" ermitteln.
03:48
Wenn Sie das Menü "Operationen" erweitern, finden Sie im Abschnitt "Organisieren" die Operation "Aggregieren", die die Funktion "Mittelwert" enthält.
04:08
Jetzt haben Sie eine neue Spalte mit der Bezeichnung "AverageDelay", die den Durchschnitt für die Gesamtverzögerung darstellt.
04:17
Führen Sie nun den Datenfluss aus und speichern und erstellen Sie den Job.
04:24
Geben Sie einen Namen für den Job an und fahren Sie mit der nächsten Anzeige fort.
04:28
Mit dem Schritt "Konfigurieren" können Sie die Ein-und Ausgabe Ihrer Jobausführung überprüfen.
04:36
Wählen Sie die Umgebung aus, in der der Job ausgeführt wird.
04:41
Die Zeitplanung für einen Job ist optional, aber Sie können ein Datum festlegen und den Job wiederholen, wenn Sie möchten.
04:51
Sie können Benachrichtigungen für diesen Job empfangen.
04:56
Alles sieht gut aus. Erstellen und führen Sie den Job nun aus.
05:00
Dies kann mehrere Minuten dauern, da der Datenfluss für die vollständige Datei ausgeführt wird.
05:06
In der Zwischenzeit können Sie den Status anzeigen.
05:12
Wenn die Ausführung konkurriert, können Sie zur Registerkarte "Assets" im Projekt zurückkehren.
05:20
Öffnen Sie den Datenfluss Data Refinery , um die Daten weiter zu optimieren.
05:28
Sie könnten zum Beispiel die Spalte "AverageDelay" in absteigender Reihenfolge sortieren.
05:36
Bearbeiten Sie jetzt die Ablaufeinstellungen.
05:39
In der Anzeige "Allgemein" können Sie den Namen des Data Refinery -Ablaufs ändern.
05:46
In der Anzeige "Quellendatasets" können Sie das Beispiel oder Format für das Quellendataset bearbeiten oder die Datenquelle ersetzen.
05:56
In der Anzeige "Zieldataset" können Sie eine alternative Position angeben, z. B. eine externe Datenquelle.
06:06
Sie können auch die Eigenschaften für das Ziel bearbeiten, z. B. den Schreibmodus, das Dateiformat und den Namen des Dataset-Assets.
06:21
Führen Sie nun den Datenfluss erneut aus. Speichern und zeigen Sie die Jobs nun jedoch an.
06:28
Wählen Sie den Job, der angezeigt werden soll, in der Liste aus und führen Sie den Job aus.
06:41
Kehren Sie nach Abschluss der Ausführung zum Projekt zurück.
06:46
Auf der Registerkarte "Assets" werden alle drei Dateien angezeigt:
06:51
Das Original.
06:54
Der erste verfeinerte Datensatz, der den "AverageDelay" unsortiert zeigt.
07:02
Und der zweite Datensatz, der die Spalte "AverageDelay" in absteigender Reihenfolge zeigt.
07:11
Auf der Registerkarte "Assets" befindet sich der Ablauf Data Refinery .
07:19
Weitere Videos finden Sie in der Dokumentation zu Cloud Pak for Data as a Service.
1. Zugriff auf Data Refinery aus einem Projekt heraus. Klicken Sie auf Neues Asset > Daten vorbereiten und visualisieren. Wählen Sie dann die Daten aus, mit denen Sie arbeiten wollen. Alternativ können Sie auf der Registerkarte Assets eines Projekts auf ein Daten-Asset klicken, um es in der Vorschau anzuzeigen, und dann auf Daten vorbereiten klicken.
2. Führen Sie mithilfe von Schritten Operationen zum Bereinigen, Formen und Aufbereiten Ihrer Daten aus. Durchsuchen Sie Operationskategorien oder suchen Sie eine bestimmte Operation und folgen Sie dann der Anleitung in der Benutzerschnittstelle. Sie können in der Befehlszeile R-Code eingeben und mithilfe der automatischen Vervollständigung die korrekte Syntax erstellen. Während Sie Operationen auf ein Dataset anwenden, verfolgt (überwacht) Data Refinery diese und erstellt einen Data Refinery-Ablauf. Für jede Operation, die Sie anwenden, fügt Data Refinery einen Schritt hinzu.
Daten-Registerkarte ' '
Wenn Sie Daten mit Datentypen verwenden, die nicht aus Zeichenfolgen bestehen, wird als erster Schritt im Data Refinery-Ablauf automatisch die GUI-Operation Spaltentyp konvertieren angewendet, wenn Sie eine Datei in Data Refinery öffnen. Datentypen werden automatisch in abgeleitete Datentypen (wie zum Beispiel "Integer", "Date", "Boolean" usw.) konvertiert. Sie können diesen Schritt rückgängig machen oder bearbeiten.
3. Klicken Sie auf die Registerkarte Profil , um während des gesamten Datenoptimierungsprozesses Ihre Daten zu validieren .
Profil-Registerkarte ' '
4. Klicken Sie auf die Registerkarte Visualizations (Visualisierungen), um die Daten in Diagrammen darzustellen . Decken Sie Muster, Trends und Korrelationen in Ihren Daten auf.
Registerkarte Visualisierungen ' '
5. Verfeinern Sie das Beispieldataset Ihren Anforderungen entsprechend.
6. Klicken Sie in der Symbolleiste auf Job speichern und erstellen oder auf Jobs speichern und anzeigen , um den Ablauf Data Refinery für das gesamte Dataset auszuführen. Wählen Sie die Laufzeit aus und fügen einen Zeitplan für die einmalige oder die wiederkehrende Ausführung hinzu. Informationen zu Jobs finden Sie unter Jobs in Data Refinery.
Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, wird das gesamte Dataset verarbeitet. So kann der Auftrag je nach den Umwandlungen und der im Datenfluss verarbeiteten Datenmenge möglicherweise einen großen Ausgabedatensatz (Ziel) erzeugen. Standardmäßig wird das Ergebnis des Data Refinery als Daten-Asset im Projekt gespeichert.
Informationen zu den Aktionen, die Sie beim Optimieren Ihrer Daten ausführen können, finden Sie unter Data Refinery -Abläufe verwalten.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Some tools perform the same tasks but have different features and levels of automation.
Jupyter notebook editor
Prepare data
Visualize data
Build models
Deploy assets
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
AutoAI
Build models
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
SPSS Modeler
Prepare data
Visualize data
Build models
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Decision Optimization
Build models
Visualize data
Deploy assets
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Data Refinery
Prepare data
Visualize data
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Orchestration Pipelines
Prepare data
Build models
Deploy assets
Automate the model lifecycle, including preparing data, training models, and creating deployments.
RStudio
Prepare data
Build models
Deploy assets
Work with R notebooks and scripts in an integrated development environment.
Federated learning
Build models
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deployments
Deploy assets
Monitor models
Deploy and run your data science and AI solutions in a test or production environment.
Catalogs
Catalog data
Governance
Find and share your data and other assets.
Metadata import
Prepare data
Catalog data
Governance
Import asset metadata from a connection into a project or a catalog.
Metadata enrichment
Prepare data
Catalog data
Governance
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Data quality rules
Prepare data
Governance
Measure and monitor the quality of your data.
Masking flow
Prepare data
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Governance
Governance
Create your business vocabulary to enrich assets and rules to protect data.
Data lineage
Governance
Track data movement and usage for transparency and determining data accuracy.
AI factsheet
Governance
Monitor models
Track AI models from request to production.
DataStage flow
Prepare data
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Data virtualization
Prepare data
Create a virtual table to segment or combine data from one or more tables.
OpenScale
Monitor models
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Data replication
Prepare data
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Master data
Prepare data
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
watsonx.ai Studio
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
watsonx.ai Runtime
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
IBM Knowledge Catalog
Discover, profile, catalog, and share trusted data in your organization.
DataStage
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
Data Virtualization
View, access, manipulate, and analyze your data without moving it.
Watson OpenScale
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Data Replication
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Match360 with Watson
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Manta Data Lineage
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Project
Where you work with data.
> Projects > View all projects
Catalog
Where you find and share assets.
> Catalogs > View all catalogs
Space
Where you deploy and run assets that are ready for testing or production.
> Deployments
Categories
Where you manage governance artifacts.
> Governance > Categories
Data virtualization
Where you virtualize data.
> Data > Data virtualization
Master data
Where you consolidate data into a 360 degree view.
Über den Einsatz von Cookies auf dieser WebsiteUnsere Websites benötigen einige Cookies, um ordnungsgemäß zu funktionieren (erforderlich). Darüber hinaus können mit Ihrer Zustimmung weitere Cookies verwendet werden, um die Nutzung der Website zu analysieren, die Benutzerfreundlichkeit zu verbessern und Werbung zu schalten.Weitere Informationen finden Sie in Ihren Cookie-Benutzervorgaben. Durch den Besuch unserer Website erklären Sie sich mit der Verarbeitung von Informationen einverstanden, wie in der IBMDatenschutzbestimmung beschrieben.Um eine reibungslose Navigation zu ermöglichen, werden Ihre Cookie-Präferenzen über die hier aufgeführten IBM Web-Domains hinweg gemeinsam genutzt.