0 / 0
Zurück zur englischen Version der Dokumentation
Data Refinery-Abläufe verwalten
Letzte Aktualisierung: 05. Dez. 2024
Data Refinery-Abläufe verwalten

Ein Data Refinery-Ablauf ist eine geordnete Folge von Schritten zum Bereinigen, Formen und Verbessern von Daten. Wenn Sie Ihre Daten optimieren , indem Sie Operationen auf ein Dataset anwenden, erstellen Sie dynamisch einen angepassten Data Refinery -Ablauf, den Sie in Echtzeit ändern und für die zukünftige Verwendung speichern können.

Sie können die folgenden Aktionen ausführen, während Sie Ihre Daten optimieren:

Mit dem Data Refinery -Ablauf arbeiten

Schritte

Mit Datasets arbeiten

Aktionen auf der Projektseite

Mit dem Ablauf Data Refinery arbeiten

Data Refinery-Ablauf speichern

Speichern Sie einen Data Refinery-Fluss, indem Sie auf das Speichern Data Refinery-Fluss-Symbol Symbol für Data Refinery -Ablauf speichern in der Data Refinery-Werkzeugleiste klicken. Data Refinery-Abläufe werden in dem Projekt gespeichert, in dem Sie arbeiten. Speichern Sie einen Data Refinery-Ablauf, um zu einem späteren Zeitpunkt mit dem Verfeinern eines Datasets fortfahren zu können.

Die Standardausgabe des Data Refinery -Ablaufs wird als Datenasset quellendateiname_shaped.csvgespeichert. Wenn die Quellendatei beispielsweise mydata.csv ist, lautet der Standardname und die Ausgabe für den Data Refinery-Ablauf mydata_csv_shaped. Sie können den Namen bearbeiten und eine Erweiterung durch die Änderung des Ziels eines Data Refinery-Ablaufs hinzufügen.

Job für einen Data Refinery-Ablauf ausführen oder terminieren

Data Refinery unterstützt umfangreiche Datasets, deren Verfeinerung zeitaufwändig und umständlich sein kann. Um Ihnen ein schnelles und effizientes Arbeiten zu ermöglichen, arbeitet Data Refinery mit einem Beispielsubset von Zeilen im Dataset. Die Stichprobengröße beträgt 1 MB oder 10.000 Zeilen, je nachdem, welcher Wert zuerst erreicht wird. Wenn Sie einen Job für den Data Refinery-Ablauf ausführen, wird das gesamte Dataset verarbeitet. Beim Ausführen des Jobs wählen Sie die Laufzeit aus und fügen einen Zeitplan für die einmalige oder die wiederkehrende Ausführung hinzu.

Klicken Sie in Data Refinery in der Data Refinery-Symbolleiste auf das Jobs-Symbol Symbol für Jobs, und wählen Sie dann Jobs speichern und erstellen oder Jobs speichern und anzeigen.

Nachdem Sie einen Data Refinery-Ablauf gespeichert haben, können Sie auf der Seite 'Projekt' auch einen zugehörigen Job erstellen. Gehen Sie zur Registerkarte Assets, wählen Sie den Fluss Data Refinery, wählen Sie Neuer Auftrag aus dem Symbol Überlauf Überlaufmenü.

Sie müssen über die Rolle Administrator oder Editor verfügen, um die Jobdetails anzuzeigen oder den Job zu bearbeiten bzw. auszuführen. Mit der Rolle Anzeigeberechtigter für das Projekt können Sie nur die Jobdetails anzeigen.

Weitere Informationen zu Jobs finden Sie unter Jobs in Data Refinery.

Data Refinery-Ablauf umbenennen

Öffnen Sie in der Symbolleiste Data Refinery den Infobereich Symbol für Infobereich. Oder klicken Sie auf das Symbol Flusseinstellungen Symbol für Infobereich und gehen Sie auf die Registerkarte Allgemein.

Schritte

Einen Schritt rückgängig machen oder wiederholen

Klicken Sie auf das Symbol Rückgängig Symbol 'Widerrufen' oder das Symbol Wiederherstellen Symbol 'Widerruf zurücknehmen' in der Symbolleiste.

Einen Schritt bearbeiten, duplizieren, einfügen oder löschen

Klicken Sie im Bereich Schritte auf das Symbol Überlauf Überlaufmenü auf dem Schritt für den Vorgang, den Sie ändern möchten. Wählen Sie die Aktion aus (Bearbeiten, Duplizieren, Schritt einfügen vor, Schritt einfügen nachoder Löschen).

  • Wenn Sie Bearbeitenauswählen, wechselt Data Refinery in den Bearbeitungsmodus und zeigt entweder die zu bearbeitende Operation in der Befehlszeile oder im Operationsfenster an. Wenden Sie die bearbeitete Operation an.

  • Wenn Sie Duplizierenauswählen, wird der duplizierte Schritt nach dem ausgewählten Schritt eingefügt.

Hinweis:

Die Aktion Duplizieren ist für die Operationen Verknüpfen oder Verknüpfen nicht verfügbar.

Data Refinery aktualisiert den Ablauf Data Refinery , um die Änderungen wiederzugeben, und führt alle Operationen erneut aus.

Data Refinery -Ablaufschritte in einer "Snapshotansicht" anzeigen

Wenn Sie sehen möchten, wie Ihre Daten zu einem bestimmten Zeitpunkt ausgesehen haben, klicken Sie auf einen vorherigen Schritt, um Data Refinery in die Snapshotansicht zu versetzen. Wenn Sie beispielsweise auf Datenquelleklicken, sehen Sie, wie Ihre Daten aussehen, bevor Sie mit der Optimierung begonnen haben. Klicken Sie auf einen Operationsschritt, um zu sehen, wie Ihre Daten nach der Anwendung dieser Operation aussahen. Um die Momentaufnahmeansicht zu verlassen, klicken Sie auf Schritt x von y anzeigen oder klicken Sie auf denselben Schritt, den Sie ausgewählt haben, um in die Momentaufnahmeansicht zu gelangen.

Data Refinery -Ablaufdaten in eine CSV-Datei exportieren

Klicken Sie auf das Symbol Exportieren Exportsymbol in der Symbolleiste, um die Daten des aktuellen Schritts in Ihrem Data Refinery-Ablauf in eine CSV-Datei zu exportieren, ohne zu speichern oder einen Data Refinery-Ablaufauftrag auszuführen. Verwenden Sie diese Option beispielsweise, wenn Sie eine schnelle Ausgabe eines Data Refinery -Ablaufs wünschen, der in Bearbeitung ist. Wenn Sie die Daten exportieren, wird im aktuellen Schritt im Data Refinery -Ablauf eine CSV-Datei erstellt und in den Ordner Downloads Ihres Computers (oder in die benutzerdefinierte Downloadposition) heruntergeladen. Wenn Sie sich in der Momentaufnahmeansichtbefinden, befindet sich die Ausgabe der CSV-Datei in dem Schritt, auf den Sie geklickt haben. Wenn Sie eine Stichprobe (Untergruppe) der Daten anzeigen, werden nur die Beispieldaten in der Ausgabe angezeigt.

Hinweis:

Wenn Ihre CSV-Datei schädliche Nutzdaten (z. B. Formeln) in einem Eingabefeld enthält, können diese Elemente ausgeführt werden.

Sie können auch einen Data Refinery Fluss exportieren, indem Sie die Projekt-Assets exportieren. Weitere Informationen finden Sie unter Exportieren von Projektelementen.

Mit Datasets arbeiten

Quelle eines Data Refinery-Ablaufs ändern

Quelle eines Data Refinery -Ablaufs ändern. Führen Sie denselben Data Refinery-Ablauf aus, jedoch mit einem anderen Quellendataset. Sie können die Quelle auf zwei Arten ändern:

  • Im Fensterbereich Schritte: Klicken Sie auf das Überlaufsymbol ' Überlaufmenü neben Datenquelle, wählen Sie Bearbeiten und wählen Sie dann einen anderen Quelldatensatz.
    ' Quelle bearbeiten

  • In den Flow-Einstellungen: Sie können diese Methode verwenden, wenn Sie mehrere Datenquellen an derselben Stelle ändern möchten. Beispiel für eine Join-oder Union-Operation. Klicken Sie in der Symbolleiste auf das Symbol für die Flusseinstellungen " Einstellungen für Ablauf. Gehen Sie auf die Registerkarte Quelldatensätze und klicken Sie auf das Überlaufsymbol " Überlaufmenü neben der Datenquelle. Wählen Sie Datenquelle ersetzenund anschließend ein anderes Quellendataset aus.

Damit die bestmöglichen Ergebnisse erzielt werden, sollte das neue Dataset über ein Schema verfügen, das mit dem ursprünglichen Dataset kompatibel ist (z. B. Spaltennamen, Anzahl von Spalten und Datentypen). Wenn das neue Dataset ein anderes Schema aufweist, werden bei Operationen, die für das Schema nicht geeignet sind, Fehler ausgegeben. Diese Operationen können Sie bearbeiten oder aber löschen oder Sie können zu einer anderen Quelle wechseln, deren Schema eine höhere Kompatibilität aufweist.

Wenn Sie eine Verbindung für ein Ziel auswählen, können Sie nur eine Verbindung aus der Liste der unterstützten Datenquellen für Data Refinery verwenden.

Stichprobenumfang bearbeiten

Wenn Sie den Job für den Flow Data Refinery ausführen, werden die Operationen für das vollständige Dataset ausgeführt. Wenn Sie die Operationen jedoch interaktiv in Data Refineryanwenden, sehen Sie je nach Größe des Datasets nur eine Stichprobe der Daten.

Erhöhen Sie den Stichprobenumfang, um Ergebnisse zu sehen, die näher an den Ergebnissen des Ablaufjobs Data Refinery liegen. Beachten Sie jedoch, dass die Anzeige der Ergebnisse in Data Refinerymöglicherweise länger dauert. Das Maximum ist eine Anzahl der obersten Zeilen von 10.000 Zeilen oder 1 MB, je nachdem, was zuerst eintritt. Verringern Sie den Stichprobenumfang, um schnellere Ergebnisse anzuzeigen. Abhängig von der Größe der Daten und der Anzahl und Komplexität der Operationen können Sie mit dem Stichprobenumfang experimentieren, um herauszufinden, was für das Dataset am besten funktioniert.

Klicken Sie in der Symbolleiste auf das Symbol für die Flusseinstellungen " Einstellungen für Ablauf. Gehen Sie auf die Registerkarte Quelldatensätze und klicken Sie auf das Überlaufsymbol " Überlaufmenü neben der Datenquelle und wählen Sie Probe bearbeiten.

Quelleneigenschaften bearbeiten

Die verfügbaren Eigenschaften hängen von der Datenquelle ab. Für Datenassets und für Daten aus verschiedenen Verbindungsarten sind unterschiedliche Eigenschaften verfügbar. Das Dateiformat nur ändern, wenn das abgeleitete Dateiformat falsch ist. Wenn Sie das Dateiformat ändern, wird die Quelle mit dem neuen Format gelesen, aber die Quellendatei bleibt unverändert. Das Ändern der Formatquelleneigenschaften kann ein iterativer Prozess sein. Überprüfen Sie Ihre Daten, nachdem Sie eine Option angewendet haben.

Klicken Sie in der Symbolleiste auf das Symbol für die Flusseinstellungen " Einstellungen für Ablauf. Gehen Sie auf die Registerkarte Quelldatensätze und klicken Sie auf das Überlaufsymbol " Überlaufmenü neben der Datenquelle und wählen Sie Format bearbeiten.

Wichtig: Gehen Sie beim Bearbeiten der Quelleneigenschaften vorsichtig vor. Falsche Auswahlen können zu unerwarteten Ergebnissen führen, wenn die Daten gelesen werden oder den Ablaufjob Data Refinery beeinträchtigen. Überprüfen Sie die Ergebnisse des Data Refinery -Ablaufs sorgfältig.

Ziel eines Data Refinery-Ablaufs ändern

Das Ziel von Data Refinery wird standardmäßig als Datenasset in dem Projekt gespeichert, in dem Sie arbeiten.

Um den Zielort zu ändern, klicken Sie in der Symbolleiste auf das Symbol für die Flusseinstellungen ' Einstellungen für Ablauf. Wechseln Sie zur Registerkarte Zieldataset , klicken Sie auf Ziel auswählenund wählen Sie eine andere Zielposition aus.

Wenn Sie eine Verbindung für ein Ziel auswählen, können Sie nur eine Verbindung aus der Liste der unterstützten Datenquellen für Data Refinery verwenden. Einige dieser Verbindungen können nur als Quelle für einen Data Refinery Flow verwendet werden.

Zieleigenschaften bearbeiten

Die verfügbaren Eigenschaften hängen von der Datenquelle ab. Für Datenassets und für Daten aus verschiedenen Verbindungsarten sind unterschiedliche Eigenschaften verfügbar.

Um die Eigenschaften des Zieldatensatzes zu ändern, klicken Sie in der Symbolleiste auf das Symbol für die Flusseinstellungen ' Einstellungen für Ablauf. Wechseln Sie zur Registerkarte Zieldataset und klicken Sie auf Eigenschaften bearbeiten.

Ändern Sie den Namen des Datenflussziels Data Refinery .

Der Name der Zieldatei ist in den Feldern enthalten, die beim Bearbeiten der Zieleigenschaften geändert werden können.

Standardmäßig wird das Ziel von Data Refinery als Datenasset quellendateiname_shaped.csv im Projekt gespeichert. Wenn die Quelle beispielsweise mydata.csvist, sind der Standardname und die Ausgabe für den Datenfluss Data Refinery das Datenasset mydata_csv_shaped.

Für eine Zieldatei aus einer Verbindung gelten unterschiedliche Eigenschaften und Namenskonventionen. Wenn sich das Dataset beispielsweise in Cloud Object Storagebefindet, wird es in den Feldern Bucket und Dateiname angegeben. Wenn sich das Dataset in einer Db2 -Datenbank befindet, wird es in den Feldern Schemaname und Tabellenname angegeben.

Wichtig: Gehen Sie beim Bearbeiten der Zieleigenschaften vorsichtig vor. Falsche Auswahlen können zu unerwarteten Ergebnissen führen oder den Ablaufjob Data Refinery beeinträchtigen. Überprüfen Sie die Ergebnisse des Data Refinery -Ablaufs sorgfältig.

Weitere Informationen finden Sie unter Zielverbindungsoptionen.

Aktionen auf der Projektseite

Data Refinery-Ablauf zum Fortsetzen der Arbeit erneut öffnen

Wenn Sie einen Data Refinery-Ablauf erneut öffnen und mit dem Verfeinern Ihrer Daten fortfahren möchten, wechseln Sie für das entsprechende Projekt zur Registerkarte Assets. Erweitern Sie unter Assettypenden Eintrag Abläufeund klicken Sie auf Data Refinery -Ablauf. Klicken Sie auf den Namen des Data Refinery-Ablaufs.

Data Refinery-Ablauf duplizieren

Um eine Kopie eines Data Refinery -Ablaufs zu erstellen, erweitern Sie auf der Registerkarte Assets des Projekts Datenflüsseund klicken Sie auf Data Refinery -Ablauf. Wählen Sie die Data Refinery aus und wählen Sie dann Duplizieren aus dem Überlaufsymbol ' Überlaufmenü. Der Data Refinery-Ablauf wird als "ursprünglicher_Name copy 1" zur Liste der Data Refinery-Abläufe hinzugefügt.

Data Refinery-Ablauf löschen

Rufen Sie zum Löschen eines Data Refinery -Ablaufs die Registerkarte Assets des Projekts auf, erweitern Sie Abläufeund klicken Sie auf Data Refinery -Ablauf. Wählen Sie die Data Refinery aus, und wählen Sie dann Löschen aus dem Überlaufsymbol " Überlaufmenü.

Data Refinery-Ablauf in Bereich hochstufen

Mithilfe von Bereitstellungsbereichen werden Gruppen zusammengehöriger Assets in einer von Ihren Projekten getrennten Umgebung verwaltet. Sie verwenden einen Space, um Daten für einen Deployment-Job für watsonx.ai Runtime vorzubereiten. Sie können Data Refinery-Abläufe aus mehreren Projekten in einen einzigen Bereich hochstufen. Führen Sie Schritte im Data Refinery-Ablauf vollständig aus, bevor Sie den Ablauf hochstufen, da der Data Refinery-Ablauf in einem Bereich nicht bearbeitet werden kann.

Um einen Data Refinery -Ablauf in einen Bereich hochzustufen, wechseln Sie zur Registerkarte Assets des Projekts, erweitern Sie Abläufeund klicken Sie auf Data Refinery -Ablauf. Wählen Sie den Ablauf Data Refinery aus. Klicken Sie auf das Überlaufsymbol ' Überlaufmenü für den Data Refinery Fluss und wählen Sie dann Promote. Die Quellendatei für den Data Refinery-Ablauf und alle weiteren abhängigen Daten werden ebenfalls hochgestuft.

Um einen Auftrag für den Data Refinery in einem Bereich zu erstellen oder auszuführen, gehen Sie auf die Registerkarte " Assets" des Bereichs, scrollen Sie nach unten zum Data Refinery und klicken Sie auf das Symbol für einen neuen Auftrag " Symbol für neuen Job aus dem Symbol für Überlauf " Überlaufmenü. Wenn Sie den Job bereits erstellt haben, rufen Sie die Registerkarte Jobs auf, um den Job zu bearbeiten oder die Jobausführungsdetails anzuzeigen. Die geformte Ausgabe des Data Refinery-Ablaufjobs ist auf der Registerkarte Assets des Bereichs verfügbar. Sie müssen über die Rolle Administrator oder Editor verfügen, um die Jobdetails anzuzeigen oder den Job zu bearbeiten bzw. auszuführen. Mit der Rolle Anzeigeberechtigter für das Projekt können Sie nur die Jobdetails anzeigen. Sie können die geformte Ausgabe als Eingabedaten für einen Job in watsonx.ai Runtime verwenden.

Einschränkung:

Wenn Sie einen Data Refinery-Ablauf von einem Projekt in einen Bereich hochstufen und das Ziel des Data Refinery-Ablaufs ein verbundenes Datenasset ist, müssen Sie das verbundene Datenasset manuell hochstufen. Diese Aktion stellt sicher, dass die Daten des verbundenen Datenassets aktualisiert werden, wenn Sie den Data Refinery-Ablaufjob im Bereich ausführen. Andernfalls wird bei einer erfolgreichen Ausführung des Data Refinery-Ablaufjobs ein neues Datenasset in dem Bereich erstellt.

Informationen zu Bereichen finden Sie unter Bereitstellungsbereiche.

Exportieren Sie die Data Refinery Flussdaten mit Projektanlagen

Sie können auch einen Data Refinery Fluss exportieren, indem Sie die Projekt-Assets exportieren. Weitere Informationen finden Sie unter Exportieren von Projektelementen.

Übergeordnetes Thema: Daten optimieren

Generative KI-Suche und -Antwort
Diese Antworten werden von einem großen Sprachmodell in watsonx.ai basierend auf dem Inhalt der Produktdokumentation generiert. Weitere Informationen