Seguire queste regole quando si specificano i dettagli di input per le distribuzioni batch dei modelli SPSS.
Tabella riassuntiva dei tipi di dati:
Dati | Descrizione |
---|---|
Tipo | riferimenti ai dati, in linea |
formati file | CSV |
Origini dati
Riferimenti dei dati di ingresso o di uscita:
- Attività locali o gestite dallo spazio
- Risorse collegate (remote) da queste fonti:
Note:
- Per le connessioni di tipo Cloud Object Storage o Cloud Object Storage (infrastructure), è necessario configurare Access key e Secret key, note anche come credenziali HMAC.
- Per le distribuzioni SPSS, queste fonti di dati non sono conformi al Federal Information Processing Standard (FIPS):
- Cloud Object Storage
- Cloud Object Storage (infrastructure)
- Volumi di archiviazione
- I nomi delle tabelle forniti nei riferimenti ai dati di input e output vengono ignorati. I nomi delle tabelle a cui si fa riferimento nel modello SPSS vengono utilizzati durante la distribuzione batch.
- Utilizzare SQL PushBack per generare istruzioni SQL per le operazioni di IBM SPSS Modeler che possono essere "rinviate" o eseguite nel database per migliorare le prestazioni. SQL Pushback è supportato solo da:
- Db2
- SQL Server
- Netezza Performance Server
Utilizzo dei dati collegati per una distribuzione batch
Un flusso SPSS Modeler può avere una serie di nodi di importazione ed esportazione dei dati. Se i nodi utilizzano connessioni al database, devono essere configurati con i nomi delle tabelle nelle origini e nelle destinazioni dei dati. Questi nomi di tabelle vengono utilizzati successivamente per i lavori batch. Utilizzare i nodi Data Asset per importare i dati e i nodi Data Asset Export per esportarli. Quando si configurano i nodi, scegliere il nome della tabella da Connessioni; non scegliere una risorsa di dati nel progetto. Impostare i nomi dei nodi e delle tabelle prima di salvare e distribuire il modello in watsonx.ai Runtime.
Quando si distribuisce il modello in uno spazio di distribuzione, verificare che i nodi si connettano a un database supportato nello spazio di distribuzione. In una distribuzione batch del modello, i dettagli della connessione sono selezionati dai riferimenti dei dati di input e output, ma i nomi delle tabelle di input e output sono selezionati dal modello SPSS Modeler. I nomi delle tabelle di ingresso e di uscita forniti nei riferimenti ai dati collegati vengono ignorati.
Per l'implementazione in batch di un modello SPSS che utilizza una connessione a Cloud Object Storage, assicurarsi che il modello SPSS abbia un singolo nodo di asset di dati di input e output.
Combinazioni supportate di sorgenti di ingresso e di uscita
È necessario specificare fonti e destinazioni di dati compatibili per l'input e l'output del lavoro batch. Se si specificano origini dati e target incompatibili, si ottiene un errore quando si tenta di eseguire il lavoro batch.
Queste combinazioni sono supportate per i lavori batch:
Input/output del modello SPSS | Immissione del lavoro di distribuzione in batch | Output del lavoro di distribuzione in batch |
---|---|---|
File | Asset di dati locale, gestito o referenziato o asset di connessione (file) | Asset di dati remoti o asset di connessione (file) o nome |
Database | Asset di dati remoti o asset di connessione (database) | Asset di dati remoti o asset di connessione (database) |
Specificare più ingressi
Se si specificano più input per un deployment di un modello SPSS senza schema, specificare un ID per ogni elemento in 'input_data_references
.
Per ulteriori informazioni, vedere Utilizzo di più fonti di dati per un lavoro SPSS.
In questo esempio, quando si crea il lavoro, si forniscono tre voci di ingresso con ID: 'sample_db2_conn
, 'sample_teradata_conn
e 'sample_googlequery_conn
e si selezionano i dati collegati richiesti per ciascun ingresso.
{
"deployment": {
"href": "/v4/deployments/<deploymentID>"
},
"scoring": {
"input_data_references": [{
"id": "sample_db2_conn",
"name": "DB2 connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_teradata_conn",
"name": "Teradata connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
},
{
"id": "sample_googlequery_conn",
"name": "Google bigquery connection",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}],
"output_data_references": {
"id": "sample_db2_conn",
"type": "data_asset",
"connection": {},
"location": {
"href": "/v2/assets/<asset_id>?space_id=<space_id>"
},
}
}
Specificare i riferimenti ai dati in modo programmatico
Se si specificano i riferimenti ai dati di ingresso e di uscita in modo programmatico:
- Il riferimento alla fonte dati "
type
dipende dal tipo di risorsa. Consultare la sezione Tipi di riferimento dell'origine dati in Aggiunta di risorse di dati a uno spazio di distribuzione. - I lavori SPSS supportano più fonti di dati in ingresso e un singolo output. Se lo schema non è presente nei metadati del modello al momento del salvataggio, è necessario inserire manualmente il "
id
e selezionare una risorsa dati per ogni connessione. Se lo schema è fornito nei metadati del modello, i nomi dei 'id
sono popolati automaticamente utilizzando i metadati. Si seleziona la risorsa dati per il corrispondente 'id
in watsonx.ai Studio. Per ulteriori informazioni, vedere Utilizzo di più fonti di dati per un lavoro SPSS. - Per creare un asset locale o gestito come riferimento dati in uscita, è necessario specificare il campo '
name
per 'output_data_reference
, in modo che venga creato un asset dati con il nome specificato. Non è possibile specificare un "href
che si riferisce a una risorsa di dati locali esistente.
Gli asset di dati collegati che fanno riferimento a database supportati possono essere creati nel 'output_data_references
solo se anche il 'input_data_references
fa riferimento a una di queste fonti.
Se si crea un lavoro utilizzando il client Python, è necessario fornire il nome della connessione a cui si fa riferimento nei nodi di dati del modello SPSS nel campo '
id
e la risorsa dati href in 'location.href
per i riferimenti ai dati di input/output del payload del lavoro di deployment. Ad esempio, si può costruire il payload del lavoro in questo modo:job_payload_ref = { client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{ "id": "DB2Connection", "name": "drug_ref_input1", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href1> } },{ "id": "Db2 WarehouseConn", "name": "drug_ref_input2", "type": "data_asset", "connection": {}, "location": { "href": <input_asset_href2> } }], client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: { "type": "data_asset", "connection": {}, "location": { "href": <output_asset_href> } } }
Argomento principale: Dettagli di input per la distribuzione in batch per struttura