Beachten Sie diese Regeln, wenn Sie Eingabedetails für Batch-Bereitstellungen von SPSS-Modellen angeben.
Übersichtstabelle für Datentypen:
Daten | Beschreibung |
---|---|
Typ | Datenreferenzen, inline |
Dateiformate | CSV |
Datenquellen
Eingabe-oder Ausgabedatenreferenzen
- Lokale oder verwaltete Assets aus dem Bereich
- Verbundene (ferne) Assets aus den folgenden Quellen:
Hinweise:
- Für Verbindungen des Typs Cloud Object Storage oder Cloud Object Storage (infrastructure) müssen Sie Zugriffsschlüssel und geheime Schlüssel konfigurieren, die auch als HMAC-Berechtigungsnachweise bezeichnet werden.
- Für SPSS -Implementierungen sind diese Datenquellen nicht mit Federal Information Processing Standard (FIPS) kompatibel:
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- Speicherdatenträger
- Tabellennamen, die in Ein-und Ausgabedatenverweisen bereitgestellt werden, werden ignoriert. Tabellennamen, auf die im SPSS-Modell verwiesen wird, werden während der Batch-Bereitstellung verwendet.
- Verwenden Sie SQL PushBack , um SQL-Anweisungen für IBM SPSS Modeler -Operationen zu generieren, die zur Verbesserung der Leistung in der Datenbank "zurückübertragen" oder ausgeführt werden können. SQL Pushback wird nur unterstützt von:
- Db2
- SQL Server
- Netezza Performance Server
Verwendung verbundener Daten für eine Batch-Bereitstellung
Ein SPSS Modeler Fluss kann eine Reihe von Import- und Exportknoten für Daten haben. Wenn die Knoten Datenbankverbindungen verwenden, müssen sie mit den Tabellennamen in den Datenquellen und Zielen konfiguriert werden. Diese Tabellennamen werden später für Batchaufträge verwendet. Verwenden Sie Daten-Asset-Knoten zum Importieren von Daten und Daten-Asset-Export-Knoten zum Exportieren von Daten. Wenn Sie die Knoten konfigurieren, wählen Sie den Tabellennamen aus Connections; wählen Sie kein Daten-Asset in Ihrem Projekt. Legen Sie die Knoten und Tabellennamen fest, bevor Sie das Modell speichern und an watsonx.ai Runtime übergeben.
Wenn Sie das Modell in einem Bereitstellungsbereich bereitstellen, überprüfen Sie, ob die Knoten eine Verbindung zu einer unterstützten Datenbank im Bereitstellungsbereich herstellen. Bei einer Batch-Bereitstellung des Modells werden die Verbindungsdetails aus den Eingabe- und Ausgabedatenreferenzen ausgewählt, aber die Namen der Eingabe- und Ausgabetabellen werden aus dem SPSS Modeler-Modell ausgewählt. Die Namen der Ein- und Ausgabetabellen, die in den angeschlossenen Datenreferenzen angegeben sind, werden ignoriert.
Für die Batch-Bereitstellung eines SPSS-Modells, das eine Cloud Object Storage-Verbindung verwendet, stellen Sie sicher, dass das SPSS-Modell einen einzelnen Eingangs- und Ausgangsdaten-Asset-Knoten hat.
Unterstützte Kombinationen von Ein- und Ausgabequellen
Sie müssen kompatible Datenquellen und Ziele für den Batchjob-Input und den Output angeben. Wenn Sie inkompatible Datenquellen und Ziele angeben, erhalten Sie eine Fehlermeldung, wenn Sie versuchen, den Batchauftrag auszuführen.
Die folgenden Kombinationen werden für Batch-Jobs unterstützt:
SPSS Modelleingabe/-ausgabe | Eingabe für Batchbereitstellungsjobs | Ausgabe für Batchbereitstellungsjobs |
---|---|---|
Datei | Lokales, verwaltetes oder referenziertes Datenasset oder Verbindungsasset (Datei) | Ferne Datenasset-oder -verbindungsanlage (Datei) oder Name |
Datenbank | Ferne Datenasset-oder Verbindungsanlage (Datenbank) | Ferne Datenasset-oder Verbindungsanlage (Datenbank) |
Mehrere Eingaben angeben
Wenn Sie mehrere Eingaben für eine SPSS-Modellbereitstellung ohne Schema angeben, geben Sie eine ID für jedes Element in input_data_references
an.
Weitere Informationen finden Sie unter Mehrere Datenquellen für einen SPSS -Job verwenden.
Wenn Sie in diesem Beispiel den Job erstellen, geben Sie drei Eingabeeinträge mit den IDs sample_db2_conn
, sample_teradata_conn
und sample_googlequery_conn
an und wählen Sie die erforderlichen verbundenen Daten für jede Eingabe aus.
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
Programmatische Angabe von Datenreferenzen
Wenn Sie Eingangs- und Ausgangsdatenreferenzen programmatisch angeben:
- Datenquellenreferenz
type
hängt vom Assettyp ab. Weitere Informationen finden Sie im Abschnitt Referenztypen für Datenquellen in Datenassets zu einem Bereitstellungsbereich hinzufügen. - SPSS-Jobs unterstützen mehrere Datenquelleneingaben und eine einzelne Ausgabe. Wenn das Schema beim Speichern des Modells nicht in den Metadaten enthalten ist, müssen Sie
id
manuell eingeben und für jede Verbindung ein Datenelement auswählen. Wenn das Schema in den Metadaten für das Modell angegeben ist, werden dieid
-Namen automatisch durch die Verwendung von Metadaten ausgefüllt. Sie wählen in watsonx.ai Studio das Daten-Asset für den entsprechenden 'id
s aus. Weitere Informationen finden Sie unter Mehrere Datenquellen für einen SPSS -Job verwenden. - Zum Erstellen eines lokalen oder verwalteten Assets als Ausgabedatenreferenz muss das Feld
name
füroutput_data_reference
angegeben werden, damit ein Datenasset mit dem angegebenen Namen erstellt wird. Sie können keinhref
angeben, das sich auf ein vorhandenes lokales Daten-Asset bezieht.
Verbundene Datenassets, die sich auf unterstützte Datenbanken beziehen, können im output_data_references
nur erstellt werden, wenn input_data_references
ebenfalls auf eine dieser Quellen verweist.
Wenn Sie einen Auftrag unter Verwendung des Python-Clients erstellen, müssen Sie den Verbindungsnamen, auf den in den Datenknoten des SPSS-Modells verwiesen wird, im Feld
id
und das Daten-Asset href im Feldlocation.href
für die Eingabe-/Ausgabedatenreferenzen der Nutzlast der Bereitstellungsaufträge angeben. Sie können die Jobnutzdaten beispielsweise wie folgt erstellen:job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }
Übergeordnetes Thema: Eingabedetails für Batchbereitstellung nach Framework