0 / 0
Torna alla versione inglese della documentazione
Dettagli di input per l'implementazione del batch per i modelli SPSS
Ultimo aggiornamento: 28 nov 2024
Dettagli di input per l'implementazione del batch per i modelli SPSS

Seguire queste regole quando si specificano i dettagli di input per le distribuzioni batch dei modelli SPSS.

Tabella riassuntiva dei tipi di dati:

Dati Descrizione
Tipo riferimenti ai dati, in linea
formati file CSV

Origini dati

Riferimenti dei dati di ingresso o di uscita:

Note:

  • Per le connessioni di tipo Cloud Object Storage o Cloud Object Storage (infrastructure), è necessario configurare Access key e Secret key, note anche come credenziali HMAC.
  • Per le distribuzioni SPSS, queste fonti di dati non sono conformi al Federal Information Processing Standard (FIPS):
    • Cloud Object Storage
    • Cloud Object Storage (infrastructure)
    • Volumi di archiviazione
  • I nomi delle tabelle forniti nei riferimenti ai dati di input e output vengono ignorati. I nomi delle tabelle a cui si fa riferimento nel modello SPSS vengono utilizzati durante la distribuzione batch.
  • Utilizzare SQL PushBack per generare istruzioni SQL per le operazioni di IBM SPSS Modeler che possono essere "rinviate" o eseguite nel database per migliorare le prestazioni. SQL Pushback è supportato solo da:
    • Db2
    • SQL Server
    • Netezza Performance Server

Utilizzo dei dati collegati per una distribuzione batch

Un flusso SPSS Modeler può avere una serie di nodi di importazione ed esportazione dei dati. Se i nodi utilizzano connessioni al database, devono essere configurati con i nomi delle tabelle nelle origini e nelle destinazioni dei dati. Questi nomi di tabelle vengono utilizzati successivamente per i lavori batch. Utilizzare i nodi Data Asset per importare i dati e i nodi Data Asset Export per esportarli. Quando si configurano i nodi, scegliere il nome della tabella da Connessioni; non scegliere una risorsa di dati nel progetto. Impostare i nomi dei nodi e delle tabelle prima di salvare e distribuire il modello in watsonx.ai Runtime.

Quando si distribuisce il modello in uno spazio di distribuzione, verificare che i nodi si connettano a un database supportato nello spazio di distribuzione. In una distribuzione batch del modello, i dettagli della connessione sono selezionati dai riferimenti dei dati di input e output, ma i nomi delle tabelle di input e output sono selezionati dal modello SPSS Modeler. I nomi delle tabelle di ingresso e di uscita forniti nei riferimenti ai dati collegati vengono ignorati.

Per l'implementazione in batch di un modello SPSS che utilizza una connessione a Cloud Object Storage, assicurarsi che il modello SPSS abbia un singolo nodo di asset di dati di input e output.

Combinazioni supportate di sorgenti di ingresso e di uscita

È necessario specificare fonti e destinazioni di dati compatibili per l'input e l'output del lavoro batch. Se si specificano origini dati e target incompatibili, si ottiene un errore quando si tenta di eseguire il lavoro batch.

Queste combinazioni sono supportate per i lavori batch:

Input/output del modello SPSS Immissione del lavoro di distribuzione in batch Output del lavoro di distribuzione in batch
File Asset di dati locale, gestito o referenziato o asset di connessione (file) Asset di dati remoti o asset di connessione (file) o nome
Database Asset di dati remoti o asset di connessione (database) Asset di dati remoti o asset di connessione (database)

Specificare più ingressi

Se si specificano più input per un deployment di un modello SPSS senza schema, specificare un ID per ogni elemento in 'input_data_references.

Per ulteriori informazioni, vedere Utilizzo di più fonti di dati per un lavoro SPSS.

In questo esempio, quando si crea il lavoro, si forniscono tre voci di ingresso con ID: 'sample_db2_conn, 'sample_teradata_conn e 'sample_googlequery_conn e si selezionano i dati collegati richiesti per ciascun ingresso.

{
"deployment": {
    "href": "/v4/deployments/<deploymentID>"
  },
  "scoring": {
  	  "input_data_references": [{
               "id": "sample_db2_conn",
               "name": "DB2 connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           },
           {
               "id": "sample_teradata_conn",
               "name": "Teradata connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           },
           {
               "id": "sample_googlequery_conn",
               "name": "Google bigquery connection",
               "type": "data_asset",
               "connection": {},
               "location": {
                     "href": "/v2/assets/<asset_id>?space_id=<space_id>"
               },
           }],
  	  "output_data_references": {
  	  	        "id": "sample_db2_conn",
                "type": "data_asset",
                "connection": {},
                "location": {
                    "href": "/v2/assets/<asset_id>?space_id=<space_id>"
                },
          }
}
Nota: Il parametro delle variabili d'ambiente dei lavori di distribuzione non è applicabile.

Specificare i riferimenti ai dati in modo programmatico

Se si specificano i riferimenti ai dati di ingresso e di uscita in modo programmatico:

  • Il riferimento alla fonte dati " type dipende dal tipo di risorsa. Consultare la sezione Tipi di riferimento dell'origine dati in Aggiunta di risorse di dati a uno spazio di distribuzione.
  • I lavori SPSS supportano più fonti di dati in ingresso e un singolo output. Se lo schema non è presente nei metadati del modello al momento del salvataggio, è necessario inserire manualmente il " id e selezionare una risorsa dati per ogni connessione. Se lo schema è fornito nei metadati del modello, i nomi dei 'id sono popolati automaticamente utilizzando i metadati. Si seleziona la risorsa dati per il corrispondente 'idin watsonx.ai Studio. Per ulteriori informazioni, vedere Utilizzo di più fonti di dati per un lavoro SPSS.
  • Per creare un asset locale o gestito come riferimento dati in uscita, è necessario specificare il campo 'name per 'output_data_reference, in modo che venga creato un asset dati con il nome specificato. Non è possibile specificare un " href che si riferisce a una risorsa di dati locali esistente.
Nota:

Gli asset di dati collegati che fanno riferimento a database supportati possono essere creati nel 'output_data_references solo se anche il 'input_data_references fa riferimento a una di queste fonti.

  • Se si crea un lavoro utilizzando il client Python, è necessario fornire il nome della connessione a cui si fa riferimento nei nodi di dati del modello SPSS nel campo 'id e la risorsa dati href in 'location.href per i riferimenti ai dati di input/output del payload del lavoro di deployment. Ad esempio, si può costruire il payload del lavoro in questo modo:

    job_payload_ref = {
        client.deployments.ScoringMetaNames.INPUT_DATA_REFERENCES: [{
            "id": "DB2Connection",
            "name": "drug_ref_input1",
            "type": "data_asset",
            "connection": {},
            "location": {
                "href": <input_asset_href1>
            }
        },{
            "id": "Db2 WarehouseConn",
            "name": "drug_ref_input2",
            "type": "data_asset",
            "connection": {},
            "location": {
                "href": <input_asset_href2>
            }
        }],
        client.deployments.ScoringMetaNames.OUTPUT_DATA_REFERENCE: {
                "type": "data_asset",
                "connection": {},
                "location": {
                    "href": <output_asset_href>
                }
            }
        }
    

Argomento principale: Dettagli di input per la distribuzione in batch per struttura

Ricerca e risposta AI generativa
Queste risposte sono generate da un modello di lingua di grandi dimensioni in watsonx.ai basato sul contenuto della documentazione del prodotto. Ulteriori informazioni