Das Erweiterungsmodellnugget wird nach der Ausführung des Erweiterungsmodellknotens generiert und in den Ablauferstellungsbereich gestellt, der Ihr R-Script oder Python for Spark-Script enthält, das die Modellerstellung und das Modellscoring definiert.
Standardmäßig enthält das Erweiterungsmodellnugget das Script, das für das Modellscoring verwendet wird, Optionen zum Lesen der Daten und eine beliebige Ausgabe von der R-Konsole oder Python for Spark. Optional kann das Erweiterungsmodellnugget auch verschiedene andere Formen der Modellausgabe enthalten, z. B. Diagramme und Textausgabe. Nachdem das Erweiterungsmodellnugget generiert und Ihrem Ablauferstellungsbereich hinzugefügt wurde, kann ein Ausgabeknoten mit ihm verbunden werden. Der Ausgabeknoten wird dann auf übliche Weise in Ihrem Ablauf zum Abrufen von Informationen über die Daten und Modelle und für den Export von Daten in verschiedenen Formaten verwendet.
Syntax (Registerkarte)
R-Modellscoring-Syntax. Bei Verwendung von R wird in diesem Feld das R-Script angezeigt, das für das Modellscoring verwendet wird. Dieses Feld ist standardmäßig aktiviert, kann aber nicht bearbeitet werden. Klicken Sie auf Bearbeiten, um das Python-Modellscoring-Script zu bearbeiten.
Python-Modellscoring-Syntax. Bei Verwendung von Python for Spark wird in diesem Feld das Python-Script angezeigt, das für das Modellscoring verwendet wird. Dieses Feld ist standardmäßig aktiviert, kann aber nicht bearbeitet werden. Klicken Sie auf Bearbeiten, um das Python-Modellscoring-Script zu bearbeiten.
Wenn Sie auf Bearbeiten klicken, um das Scoring-Syntaxfeld bearbeitbar zu machen, können Sie das Scoring-Script des Modells bearbeiten, indem Sie das Scoring-Syntaxfeld eingeben. Beispiel: Sie möchten Ihr Modellscoring-Script bearbeiten, wenn Sie einen Fehler in Ihrem Modellscoring-Script entdecken, nachdem Sie den Erweiterungsmodellknoten ausgeführt haben, um ein Erweiterungsmodellnugget zu generieren. Alle Änderungen, die Sie an dem Modellscoring-Script im Erweiterungsmodellnugget vornehmen, gehen verloren, wenn Sie das Modell erneut generieren, indem Sie den Erweiterungsmodellknoten erneut ausführen.
Registerkarte "Modelloptionen"
Datenlese-Optionen. Diese Optionen gelten nur für R, nicht für Python for Spark. Mit diesen Optionen können Sie angeben, wie fehlende Werte, Flagfelder und Variablen mit Datums- oder Datums-/Uhrzeitformaten verarbeitet werden.
- Daten in Batches lesen. Wenn Sie eine große Menge von Daten verarbeiten (die beispielsweise den Speicher der R-Engine übersteigt), verwenden Sie diese Option, um die Daten in Batches zu zerlegen, die einzeln gesendet und verarbeitet werden können. Geben Sie die maximale Anzahl der Datensätze an, die in jede Batchverarbeitung eingeschlossen werden sollen.
Sowohl für den Erweiterungstransformationsknoten als auch für das Erweiterungsmodellnugget werden Daten durch das R-Script (im Batchbetrieb) übergeben. Aus diesem Grund sollten Scripts für Modellscoring- und Prozessknoten, die in einer Hadoop- oder Datenbankumgebung ausgeführt werden, keine Operationen enthalten, die in den Daten mehrere Zeilen umfassen oder kombinieren, wie z. B. Sortierung oder Aggregation. Diese Einschränkung wird auferlegt, um sicherzustellen, dass Daten in einer Hadoop-Umgebung und während des Minings innerhalb der Datenbank aufgeteilt werden können. Für Erweiterungsausgabe- und Erweiterungmodellknoten besteht diese Einschränkung nicht.
- Flag-Felder konvertieren. Gibt an, wie Flagfelder behandelt werden. Es gibt zwei Optionen: Zeichenfolgen zu Faktor, Ganzzahlen und reelle Zahlen zu verdoppelnund Logische Werte (True, False). Wenn Sie Logische Werte (True, False) auswählen, gehen die ursprünglichen Werte der Flagfelder verloren. Wenn ein Feld beispielsweise die Werte
Male
undFemale
enthält, werden diese inTrue
undFalse
geändert. - Fehlende Werte in den R 'nicht verfügbaren' Wert (NA) konvertieren. Bei Auswahl dieser Option werden alle fehlenden Werte in das R konvertiert.NAWert. Der MehrwertNAwird von R verwendet, um fehlende Werte zu identifizieren. Einige R-Funktionen, die Sie verwenden, verfügen möglicherweise über ein Argument, das steuern kann, wie sich die Funktion verhält, wenn die DatenNA. Mit der Funktion können Sie beispielsweise auswählen, dass Datensätze, dieNAWenn diese Option nicht ausgewählt ist, werden fehlende Werte unverändert an R übergeben und können Fehler verursachen, wenn Ihr R-Script ausgeführt wird.
- Datums-/Uhrzeitfelder in R-Klassen mit Sondersteuerung für Zeitzonen umrechnen Wenn diese Option ausgewählt ist, werden Variablen mit Datums-oder Datums-/Uhrzeitformaten in R Datums-/Uhrzeitobjekte konvertiert. Sie müssen eine der folgenden Optionen auswählen:
- R POSIXct. Variablen mit Datums-oder Datums-/Uhrzeitformaten werden in R konvertiert.POSIXctObjekten
- R POSIXlt (Liste). Variablen mit Datums-oder Datums-/Uhrzeitformaten werden in R konvertiertPOSIXltObjekten
Hinweis: Die POSIX -Formate sind erweiterte Optionen. Verwenden Sie diese Optionen nur, wenn Ihr R-Script für Datums-/Uhrzeitfelder Behandlungsverfahren angibt, für die diese Formate erforderlich sind. Die POSIX-Formate gelten nicht für Variablen mit Zeitformaten.
- Flag-Felder konvertieren wird auf Zeichenfolgen zu Faktor, Ganzzahlen und reelle Zahlen zu verdoppeln gesetzt.
- Fehlende Werte in den Wert R 'not available' (Nicht verfügbar) umrechnen (NA) ist ausgewählt
- Datums-/Uhrzeitfelder in R-Klassen mit Sondersteuerung für Zeitzonen umrechnen ist nicht ausgewählt
Registerkarte "Konsolenausgabe"
Die Registerkarte Konsolenausgabe enthält alle Ausgaben, die empfangen werden, wenn das R-Script oder Python for Spark-Script auf der Registerkarte Syntax ausgeführt wird (z. B., wenn ein R-Script verwendet wird, wird die Ausgabe angezeigt, die von der R-Konsole empfangen wurde, wenn das R-Script im Feld R-Modellscoring-Syntax auf der Registerkarte Syntax des Erweiterungsmodellnuggets ausgeführt wird). Diese Ausgabe enthält alle R- oder Python-Fehlernachrichten, die beim Ausführen des R- oder Python-Scripts erzeugt werden, sowie alle Textausgaben von der R-Konsole. Die Ausgabe kann in erster Linie für das Debugging des R-Scripts verwendet werden.
Jedes Mal, wenn das Modell-Scoring-Script ausgeführt wird, wird der Inhalt der Registerkarte Konsolenausgabe mit der Ausgabe überschrieben, die von der R-Konsole oder von Python for Spark empfangen wird. Sie können die Konsolenausgabe nicht bearbeiten.