Dettagli di input per l'installazione in batch per i modelli SPSS
Seguite queste regole quando specificate i dettagli di input per le distribuzioni batch dei modelli SPSS.
Tabella di riepilogo del tipo di dati:
Dati | Descrizione |
---|---|
Tipo | Riferimenti ai dati, in linea |
formati file | CSV |
origini dati
Riferimenti ai dati di input o di output:
- Risorse locali o gestite dallo spazio
- Asset connessi (remoti) da queste origini:
Note:
- Per le connessioni di archiviazione cloud come Cloud Object Storage o Cloud Object Storage (infrastructure) è necessario configurare la chiave di accesso e la chiave segreta, note anche come credenziali HMAC.
- Per le distribuzioni SPSS , queste origini dati non sono conformi a FIPS (Federal Information Processing Standard):
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- Volumi di archiviazione
- I nomi tabella forniti nei riferimenti ai dati di input e di output vengono ignorati. I nomi delle tabelle a cui si fa riferimento nel modello SPSS vengono utilizzati durante la distribuzione batch.
- Utilizzare SQL PushBack per generare istruzioni SQL per le operazioni IBM SPSS Modeler che possono essere "inviate" o eseguite nel database per migliorare le prestazioni. Il pushback SQL è supportato solo da:
- Db2
- SQL Server
- Netezza Performance Server
Utilizzo dei dati collegati per una distribuzione batch
Un flusso SPSS Modeler può avere una serie di nodi di importazione ed esportazione dei dati. Se i nodi utilizzano connessioni al database, devono essere configurati con i nomi delle tabelle nelle sorgenti e nelle destinazioni dei dati. Questi nomi di tabelle vengono utilizzati successivamente per i lavori batch. Utilizzare i nodi Data Asset per importare i dati e i nodi Data Asset Export per esportarli. Quando si configurano i nodi, scegliere il nome della tabella da Connessioni; non scegliere una risorsa di dati nel progetto. Impostare i nomi dei nodi e delle tabelle prima di salvare e distribuire il modello in watsonx.ai Runtime.
Quando si distribuisce il modello in uno spazio di distribuzione, verificare che i nodi si connettano a un database supportato nello spazio di distribuzione. In una distribuzione batch del modello, i dettagli della connessione sono selezionati dai riferimenti dei dati di input e output, ma i nomi delle tabelle di input e output sono selezionati dal modello SPSS Modeler. I nomi delle tabelle di ingresso e di uscita forniti nei riferimenti ai dati collegati vengono ignorati.
Per la distribuzione in batch di un modello SPSS che utilizza una connessione Cloud Object Storage, assicurarsi che il modello SPSS abbia un singolo nodo di risorse di dati di input e output.
Combinazioni supportate di origini di input e output
È necessario specificare fonti e destinazioni di dati compatibili per l'input e l'output del lavoro batch. Se si specificano origini dati e target incompatibili, si ottiene un errore quando si tenta di eseguire il lavoro batch.
Queste combinazioni sono supportate per i lavori batch:
SPSS input/output del modello | Input lavoro di distribuzione batch | Output del lavoro di distribuzione batch |
---|---|---|
File | Asset di dati locale, gestito o di riferimento o asset di connessione (file) | Asset di dati remoti o asset di connessione (file) o nome |
Database | Asset di dati remoto o asset di connessione (database) | Asset di dati remoto o asset di connessione (database) |
Specifica di più input
Se si stanno specificando più input per una distribuzione del modello SPSS senza schema, specificare un ID per ogni elemento in input_data_references
.
Per ulteriori informazioni, consultare Utilizzo di più origini dati per un lavoro SPSS.
In questo esempio, quando si crea il lavoro, fornire tre voci di input con gli ID: sample_db2_conn
, sample_teradata_conn
e sample_googlequery_conn
e selezionare i dati connessi richiesti per ciascun input.
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
Specificare i riferimenti ai dati in modo programmatico
Se si specificano i riferimenti ai dati di ingresso e di uscita in modo programmatico:
- Il riferimento dell'origine dati
type
dipende dal tipo di asset. Fare riferimento alla sezione Tipi di riferimento origine dati in Aggiunta di asset di dati a uno spazio di distribuzione. - I job SPSS supportano più input di origine dati e un unico output. Se lo schema non è presente nei metadati del modello al momento del salvataggio, è necessario inserire manualmente
id
e selezionare una risorsa dati per ogni connessione. Se lo schema è fornito nei metadati del modello, i nomiid
sono popolati automaticamente utilizzando i metadati. Si seleziona la risorsa dati per il corrispondente 'id
in watsonx.ai Studio. Per ulteriori informazioni, consultare Utilizzo di più origini dati per un lavoro SPSS. - Per creare un asset locale o gestito come riferimento dati di output, è necessario specificare il campo
name
peroutput_data_reference
in modo che venga creato un asset di dati con il nome specificato. Non è possibile specificare unhref
che faccia riferimento a una risorsa di dati locali esistente.
Gli asset di dati connessi che fanno riferimento a database supportati possono essere creati in output_data_references
solo quando input_data_references
fa riferimento anche ad una di queste origini.
Se si crea un lavoro utilizzando il client Python, è necessario fornire il nome della connessione a cui si fa riferimento nei nodi di dati del modello SPSS nel campo
id
e l'asset di dati href inlocation.href
per i riferimenti ai dati di input/output del payload del lavoro di distribuzione. Ad esempio, è possibile creare il payload del lavoro come segue:job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }
Argomento principale: Dettagli di input della distribuzione batch per framework