Configura i nodi della tua pipeline per specificare gli input e per creare gli output come parte della tua pipeline.
Specifica dell'ambito dello spazio di lavoro
Per impostazione predefinita, l'ambito per una pipeline è il progetto che contiene la pipeline. È possibile specificare esplicitamente un ambito diverso da quello predefinito, per individuare un asset utilizzato nella pipeline. L'ambito è il progetto, il catalogo o lo spazio che contiene l'asset. Dall'interfaccia utente, è possibile ricercare l'ambito.
Modifica della modalità di input
Quando si configura un nodo, è possibile specificare qualsiasi risorsa che include dati e notebook in vari modi. Ad esempio, immettendo direttamente un nome o un ID, ricercando un asset o utilizzando l'output di un nodo precedente nella pipeline per popolare un campo. Per vedere quali opzioni sono disponibili per un campo, fare clic sull'icona di input per il campo. A seconda del contesto, le opzioni possono includere:
- Selezionare la risorsa: utilizzare il browser di asset per trovare un asset come un file di dati.
- Assegna parametro della pipeline: assegna un valore utilizzando una variabile configurata con un parametro della pipeline. Per ulteriori informazioni, vedere Configurazione di oggetti globali.
- Selezionare da un altro nodo: utilizzare l'output da un nodo precedente nella pipeline come valore per questo campo.
- Immettere l'espressione: immettere il codice per assegnare i valori o identificare le risorse. Per ulteriori informazioni, consultare Elementi di codifica.
Parametri e nodi pipeline
Configurare i seguenti tipi di nodi pipeline:
Copia nodi
Utilizzare i nodi Copia per aggiungere asset alla pipeline o per esportare gli asset della pipeline.
Copiare gli asset selezionati da un progetto o uno spazio in uno spazio non vuoto. È possibile copiare questi asset in uno spazio:
Esperimento AutoAI
Lavoro pacchetto codice
Connessione
Flusso Data Refinery
Lavoro Data Refinery
Asset di dati
Lavoro DataStage
lavoro di distribuzione
Ambiente
Funzione
Lavoro
Modello
Notebook
Lavoro Notebook
Lavoro pipeline
Script
Lavoro script
Lavoro SPSS Modeler
Copia asset
Parametri di input
Parametro | Descrizione |
---|---|
Asset origine | Sfoglia o cerca l'asset di origine da aggiungere all'elenco. È anche possibile specificare un asset con un parametro della pipeline, con l'output di un altro nodo o immettendo l'ID asset |
Destinazione | Sfoglia o cerca lo spazio di destinazione |
Modo copia | Scegliere come gestire un caso in cui il flusso tenta di copiare un asset ed esiste uno con lo stesso nome. Uno tra: ignore , fail , overwrite |
Parametri di output
Parametro | Descrizione |
---|---|
Asset di output | Elenco di asset copiati |
Esporta asset
Esportare gli asset selezionati dall'ambito, ad esempio, un progetto o uno spazio di distribuzione. Per impostazione predefinita, l'operazione esporta tutti gli asset. È possibile limitare la selezione degli asset creando un elenco di risorse da esportare.
Parametri di input
Parametro | Descrizione |
---|---|
Asset | Scegliere Ambito per esportare tutti gli elementi esportabili oppure scegliere Elenco per creare un elenco di elementi specifici da esportare |
Progetto o spazio di origine | Il nome del progetto o dello spazio che contiene gli asset da esportare |
File esportato | Ubicazione file per la memorizzazione del file di esportazione |
Modalità di creazione (facoltativo) | Scegliere come gestire un caso in cui il flusso tenta di creare un asset ed esiste uno con lo stesso nome. Uno tra: ignore , fail , overwrite |
Parametri di output
Parametro | Descrizione |
---|---|
File esportato | Percorso del file esportato |
Note:
- Se si esportano gli asset del progetto che contengono un notebook, l'ultima versione del notebook viene inclusa nel file di esportazione. Se la pipeline con il nodo Esegui lavoro notebook è stata configurata per utilizzare una versione del notebook diversa dalla versione più recente, la pipeline esportata viene automaticamente riconfigurata per utilizzare la versione più recente quando viene importata. Ciò potrebbe produrre risultati imprevisti o richiedere una riconfigurazione dopo l'importazione.
- Se gli asset sono contenuti in modo autonomo nel progetto esportato, vengono conservati quando si importa un nuovo progetto. In caso contrario, potrebbe essere richiesta una configurazione in seguito a un'importazione di asset esportati.
Importa asset
Importare gli asset da un file ZIP che contiene gli asset esportati.
Parametri di input
Parametro | Descrizione |
---|---|
Percorso della destinazione dell'importazione | Sfoglia o cerca gli asset da importare |
File di archivio da importare | Specificare il percorso di un file ZIP o di un archivio |
Note: dopo aver importato un file, i percorsi e i riferimenti agli asset importati vengono aggiornati, attenendosi alle seguenti regole:
- I riferimenti agli asset dal progetto o dallo spazio esportato vengono aggiornati nel nuovo progetto o spazio dopo l'importazione.
- Se gli asset del progetto esportato fanno riferimento ad asset esterni (inclusi in un progetto differente), il riferimento all'asset esterno persisterà dopo l'importazione.
- Se l'asset esterno non esiste più, il parametro viene sostituito con un valore vuoto ed è necessario riconfigurare il campo in modo che punti ad un asset valido.
Crea nodi
Configurare i nodi per la creazione di asset nella pipeline.
Crea esperimento AutoAI
Utilizzare questo nodo per addestrare un esperimento di classificazione o di regressioneAutoAI e generare pipeline candidate al modello.
Parametri di input
Parametro | Descrizione |
---|---|
Nome esperimento AutoAI | Nome del nuovo esperimento |
Ambito | Un progetto o uno spazio in cui verrà creato l'esperimento |
Tipo di previsione | Il tipo di modello per i seguenti dati: binario, classificazione o regressione |
Colonna di previsione (etichetta) | Il nome della colonna di previsione |
Classe positiva (facoltativa) | Specificare una classe positiva per un esperimento di classificazione binaria |
Rapporto di suddivisione dei dati di addestramento (facoltativo) | La percentuale di dati da trattenere dall'addestramento e utilizzare per verificare le pipeline (float: 0.0 - 1.0) |
Algoritmi da includere (facoltativo) | Limita l'elenco degli stimatori da utilizzare (l'elenco dipende dal tipo di apprendimento) |
Algoritmi da utilizzare | Specificare l'elenco di stimatori da utilizzare (l'elenco dipende dal tipo di apprendimento) |
Ottimizza metrica (facoltativo) | La metrica utilizzata per la classificazione del modello |
Specifica hardware (facoltativo) | Specificare una specifica hardware per l'esperimento |
Descrizione dell'esperimento AutoAI | Descrizione dell'esperimento |
Tag di esperimento AutoAI (facoltativo) | Tag per identificare l'esperimento |
Modalità di creazione (facoltativo) | Scegliere come gestire un caso in cui la pipeline tenta di creare un esperimento e ne esiste uno con lo stesso nome. Uno tra: ignore , fail , overwrite |
Parametri di output
Parametro | Descrizione |
---|---|
Esperimento AutoAI | Percorso del modello salvato |
Crea esperimento di serie temporali AutoAI
Utilizzare questo nodo per addestrare un esperimento di serie temporali AutoAI e generare pipeline candidate al modello.
Parametri di input
Parametro | Descrizione |
---|---|
Nome dell'esperimento della serie temporale AutoAI | Nome del nuovo esperimento |
Ambito | Un progetto o uno spazio in cui verrà creata la pipeline |
Colonne di previsione (etichetta) | Il nome di una o più colonne di previsione |
Colonna data/ora (facoltativo) | Nome della colonna data/ora |
Sfrutta i valori futuri delle funzioni di supporto | Scegliere "True" per abilitare la considerazione per le funzioni di supporto (esogene) per migliorare la previsione. Ad esempio, includere una funzione di temperatura per prevedere le vendite di gelati. |
Funzioni di supporto (facoltativo) | Scegliere le funzioni di supporto e aggiungerle all'elenco |
Metodo di assegnazione (facoltativo) | Scegliere una tecnica per assegnare i valori mancanti in un dataset |
Soglia di assegnazione (facoltativo) | Specificare una soglia più alta per la percentuale di valori mancanti da fornire con il metodo di assegnazione specificato. Se la soglia viene superata, l'esperimento non riesce. Ad esempio, se si specifica che il 10% dei valori può essere assegnato e nel dataset manca il 15% dei valori, l'esperimento ha esito negativo. |
Tipo di riempimento | Specificare in che modo il metodo di assegnazione specificato riempie i valori null. Scegliere di fornire una media di tutti i valori e la mediana di tutti i valori oppure specificare un valore di riempimento. |
Valore di riempimento (facoltativo) | Se si è scelto di specificare un valore per la sostituzione di valori null, immettere il valore in questo campo. |
Set di dati di addestramento finale | Scegliere se addestrare le pipeline finali solo con i dati di training o con i dati di training e di holdout. Se si scelgono i dati di addestramento, il notebook generato include una cella per richiamare i dati di holdout |
Dimensione holdout (facoltativo) | Se si stanno suddividendo i dati di training in dati di training e holdout, specificare una percentuale dei dati di training da riservare come dati di holdout per la convalida delle pipeline. I dati di holdout non superano un terzo dei dati. |
Numero di backtest (facoltativo) | Personalizza i backtest per la convalida incrociata dell'esperimento di serie temporali |
Lunghezza spazio (facoltativo) | Regolare il numero di punti temporali tra il dataset di addestramento e il data set di convalida per ogni backtest. Quando il valore del parametro è diverso da zero, i valori delle serie temporali nello scarto non vengono utilizzati per addestrare l'esperimento o valutare il backtest corrente. |
Finestra Lookback (facoltativo) | Un parametro che indica quanti valori di serie temporali precedenti vengono utilizzati per prevedere il punto temporale corrente. |
Finestra Previsione (facoltativo) | L'intervallo che si desidera prevedere in base ai dati nella finestra retrospettiva. |
Algoritmi da includere (facoltativo) | Limita l'elenco degli stimatori da utilizzare (l'elenco dipende dal tipo di apprendimento) |
Pipeline da completare | Facoltativamente, modificare il numero di pipeline da creare. Più pipeline aumentano i tempi di formazione e le risorse. |
Specifica hardware (facoltativo) | Specificare una specifica hardware per l'esperimento |
Descrizione dell'esperimento della serie temporale AutoAI (facoltativo) | Descrizione dell'esperimento |
Tag di esperimento AutoAI (facoltativo) | Tag per identificare l'esperimento |
Modalità di creazione (facoltativo) | Scegliere come gestire un caso in cui la pipeline tenta di creare un esperimento e ne esiste uno con lo stesso nome. Uno tra: ignore , fail , overwrite |
Parametri di output
Parametro | Descrizione |
---|---|
Esperimento di serie temporali AutoAI | Percorso del modello salvato |
Crea distribuzione batch
Utilizzare questo nodo per creare una distribuzione batch per un modello di machine learning.
Parametri di input
Parametro | Descrizione |
---|---|
Asset di ML | Nome o ID dell'asset di machine learning da distribuire |
Nuovo nome distribuzione (facoltativo) | Nome del nuovo lavoro, con descrizione e tag facoltativi |
Modalità di creazione (facoltativo) | Come gestire un caso in cui la pipeline tenta di creare un lavoro e ne esiste uno con lo stesso nome. Uno tra: ignore , fail , overwrite |
Nuova descrizione di distribuzione (facoltativo) | Descrizione della distribuzione |
Nuove tag di distribuzione (facoltativo) | Tag per l'identificazione della distribuzione |
Specifica hardware (facoltativo) | Specificare una specifica hardware per il lavoro |
Parametri di output
Parametro | Descrizione |
---|---|
Nuova distribuzione | Percorso della distribuzione appena creata |
Crea asset di dati
Utilizzare questo nodo per creare un asset di dati.
Parametri di input
Parametro | Descrizione |
---|---|
File | Percorso del file in un archivio file |
Ambito di destinazione | Percorso dello spazio o del progetto di destinazione |
Nome (facoltativo) | Nome dell'origine dati con descrizione facoltativa, paese di origine e tag |
Descrizione (facoltativa) | Descrizione dell'asset |
Paese di origine (facoltativo) | Paese di origine per le normative sui dati |
Tag (facoltativo) | Tag per identificare gli asset |
Modalità di creazione | Come gestire un caso in cui la pipeline tenta di creare un lavoro e ne esiste uno con lo stesso nome. Uno tra: ignore , fail , overwrite |
Parametri di output
Parametro | Descrizione |
---|---|
Asset di dati | L'asset di dati appena creato |
Crea spazio di distribuzione
Utilizzare questo nodo per creare e configurare uno spazio che è possibile utilizzare per organizzare e creare distribuzioni.
Parametri di input
Parametro | Descrizione |
---|---|
Nuovo nome spazio | Nome del nuovo spazio con descrizione e tag facoltativi |
Nuove tag di spazio (facoltativo) | Tag per identificare lo spazio |
Nuovo CRN istanza COS spazio | CRN dell'istanza del servizio COS |
Nuovo CRN istanza WML spazio (facoltativo) | CRN dell'istanza del servizio watsonx.ai Runtime |
Modalità di creazione (facoltativo) | Come gestire un caso in cui la pipeline tenta di creare uno spazio e ne esiste uno con lo stesso nome. Uno tra: ignore , fail , overwrite |
Descrizione spazio (facoltativo) | Descrizione dello spazio |
Parametri di output
Parametro | Descrizione |
---|---|
Spazio | Percorso dello spazio appena creato |
Crea la distribuzione online
Utilizzare questo nodo per creare una distribuzione in linea in cui è possibile inoltrare i dati di test direttamente a un endpoint API REST del servizio Web.
Parametri di input
Parametro | Descrizione |
---|---|
Asset di ML | Nome o ID dell'asset di machine learning da distribuire |
Nuovo nome distribuzione (facoltativo) | Nome del nuovo lavoro, con descrizione e tag facoltativi |
Modalità di creazione (facoltativo) | Come gestire un caso in cui la pipeline tenta di creare un lavoro e ne esiste uno con lo stesso nome. Uno tra: ignore , fail , overwrite |
Nuova descrizione di distribuzione (facoltativo) | Descrizione della distribuzione |
Nuove tag di distribuzione (facoltativo) | Tag per l'identificazione della distribuzione |
Specifica hardware (facoltativo) | Specificare una specifica hardware per il lavoro |
Parametri di output
Parametro | Descrizione |
---|---|
Nuova distribuzione | Percorso della distribuzione appena creata |
Attesa
Utilizzare i nodi per sospendere una pipeline fino a quando un asset è disponibile nell'ubicazione specificata nel percorso.
Utilizzare questo nodo per attendere che tutti i risultati dei nodi precedenti nella pipeline siano disponibili in modo che la pipeline possa continuare.
Questo nodo non utilizza input e non produce output. Quando i risultati sono tutti disponibili, la pipeline continua automaticamente.
Attendi tutti i risultati
Utilizzare questo nodo per attendere che qualsiasi risultato dei nodi precedenti nella pipeline sia disponibile in modo che la pipeline possa continuare. Eseguire i nodi downstream non appena viene soddisfatta una delle condizioni upstream.
Questo nodo non utilizza input e non produce output. Quando sono disponibili dei risultati, la pipeline continua automaticamente.
Attendi un qualsiasi risultato
Attendere la creazione o l'aggiornamento di un asset nella collocazione specificata nel percorso da un lavoro o processo precedente nella pipeline. Specificare una lunghezza di timeout per attendere che la condizione venga soddisfatta. Se 00:00:00 è la lunghezza di timeout specificata, il flusso attende indefinitamente.
Attendere il file
Parametri di input
Parametro | Descrizione |
---|---|
Ubicazione file | Specificare l'ubicazione nel browser dell'asset in cui si trova l'asset. Utilizzare il formato data_asset/filename in cui il percorso è relativo alla root. Il file deve esistere e deve trovarsi nell'ubicazione specificata oppure il nodo ha esito negativo con un errore. |
Modalità di attesa | Per impostazione predefinita, la modalità è per il file da visualizzare. È possibile passare all'attesa della scomparsa del file |
Lunghezza timeout (facoltativo) | Specificare il periodo di attesa prima di procedere con la pipeline. Utilizzare il formato hh:mm:ss |
Politica di errore (facoltativo) | Consultare Gestione degli errori |
Parametri di output
Parametro | Descrizione |
---|---|
Valore di ritorno | Valore di ritorno dal nodo |
Stato esecuzione | Restituisce il valore: Completato, Completato con avvertenze, Completato con errori, Non riuscito o Annullato |
Messaggio di stato | Messaggio associato allo stato |
Nodi di controllo
Controllare la pipeline aggiungendo la logica e la gestione degli errori.
I loop sono un nodo in una pipeline che funziona come un loop codificato.
I due tipi di loop sono paralleli e sequenziali.
È possibile utilizzare i loop quando il numero di iterazioni per un'operazione è dinamico. Ad esempio, se non si conosce il numero di notebook da elaborare o si desidera scegliere il numero di notebook al runtime, è possibile utilizzare un loop per iterare l'elenco di notebook.
È anche possibile utilizzare un loop per eseguire l'iterazione attraverso l'output di un nodo o attraverso elementi in un array di dati.
Loop in parallelo
Aggiungere un costrutto di loop parallelo alla pipeline. Un loop parallelo esegue i nodi di iterazione indipendentemente e possibilmente simultaneamente.
Ad esempio, per preparare un modello di machine learning con una serie di iperparametri per trovare il miglior esecutore, è possibile utilizzare un loop per eseguire l'iterazione su un elenco di iperparametri per addestrare le variazioni del notebook in parallelo. I risultati possono essere confrontati successivamente nel flusso per trovare il notebook migliore. Per visualizzare limiti sul numero di loop che è possibile eseguire simultaneamente, consultare Limitazioni.
Nel seguente esempio, un nodo Esegui script Bash ricerca e richiama i notebook che corrispondono ai criteri specificati. Un nodo Esegui job DataStage richiama i dati da un repository Git . Quando l'input da ciascun nodo è disponibile, inizia il processo di loop, eseguendo ogni notebook richiamato dalla ricerca ed elaborando i dati richiamati dal repository Git .
Fare clic su Espandi per aggiungere nodi o sull'icona in uscita sul nodo per visualizzare il processo di loop completo. Durante l'esecuzione dei notebook, tutti gli errori nel notebook vengono catturati in una condizione denominata Qualità scarsa. La condizione attiva uno script Bash per incrementare una variabile utente denominata Incrementa conteggio errori. Quando il valore della variabile Increase error count soddisfa la soglia specificata, il loop viene terminato.
Poiché il flusso viene eseguito in parallelo per ogni notebook, restituisce i risultati più velocemente di un loop sequenziale.
Parametri di input durante l'iterazione dei tipi di elenco
Parametro | Descrizione |
---|---|
Elenca input | Il parametro Input elenco contiene due campi, il tipo di dati dell'elenco e il contenuto dell'elenco su cui il loop esegue l'iterazione o un link standard all'input della pipeline o all'output della pipeline. |
Parallelismo | Numero massimo di attività da eseguire contemporaneamente. Deve essere maggiore di zero |
Parametri di input durante l'iterazione dei tipi String
Parametro | Descrizione |
---|---|
Input di testo | Dati di testo da cui il loop legge |
Separatore | Un carattere utilizzato per dividere il testo |
Parallelismo (facoltativo) | Numero massimo di attività da eseguire contemporaneamente. Deve essere maggiore di zero |
Se il tipo di elemento array di input è JSON o qualsiasi tipo rappresentato come tale, questo campo potrebbe decomporlo come dizionario. Le chiavi sono le chiavi dell'elemento originale e i valori sono gli alias per i nomi di output.
Parametri di output
Parametro | Descrizione |
---|---|
Controllo Interruzione ID nodo | Contiene l'ID del nodo terminatore su cui il nodo è terminato, altrimenti è vuoto |
Stato esecuzione | Informazioni sullo stato del lavoro: in sospeso, in avvio, in esecuzione, completato, annullato o non riuscito con errori |
Messaggio di stato | Informazioni sullo stato del lavoro |
Loop in sequenza
Aggiungere un costrutto loop sequenziale alla pipeline. I loop possono essere iterati su un intervallo numerico, un elenco o un testo con un delimitatore.
Un caso di utilizzo per i loop sequenziali è se si desidera tentare un'operazione 3 volte prima di determinare se un'operazione non è riuscita.
Parametri di input
Parametro | Descrizione |
---|---|
Elenca input | Il parametro Input elenco contiene due campi, il tipo di dati dell'elenco e il contenuto dell'elenco su cui il loop esegue l'iterazione o un link standard all'input della pipeline o all'output della pipeline. |
Input di testo | Dati di testo da cui legge il loop. Specificare un carattere per dividere il testo. |
Range | Specificare il passo iniziale, finale e facoltativo per un intervallo da iterare. Il passo predefinito è 1. |
Dopo aver configurato l'intervallo iterativo del loop, definire un flusso di pipeline secondaria all'interno del loop da eseguire fino a quando il loop non è completo. Ad esempio, può richiamare notebook, script o altri flussi per iterazione.
Parametri di output
Parametro | Descrizione |
---|---|
Controllo Interruzione ID nodo | Contiene l'ID del nodo terminatore su cui il nodo è terminato, altrimenti è vuoto |
Stato esecuzione | Informazioni sullo stato del lavoro: in sospeso, in avvio, in esecuzione, completato, annullato o non riuscito con errori |
Messaggio di stato | Informazioni sullo stato del lavoro |
Termina loop
In un flusso di processi di loop sequenziali o paralleli, è possibile aggiungere un nodo Termina pipeline per terminare il processo di loop in qualsiasi momento. È necessario personalizzare le condizioni di disdetta. Nei nodi, è possibile modificare lo stato del ciclo quando termina come Completo o Fallimento. In questo modo si garantisce la possibilità di completare il ciclo e di soddisfare le condizioni di fallimento del nodo del ciclo e di scegliere se continuare con la pipeline o eseguire altre azioni.
Imposta variabili utente
Configurare una variabile utente con una coppia chiave / valore, quindi aggiungere l'elenco di variabili dinamiche per questo nodo.
Per ulteriori informazioni su come creare una variabile utente, consultare Configurazione di oggetti globali.
Parametri di input
Parametro | Descrizione |
---|---|
Nome | Immettere il nome o la chiave per la variabile |
Tipo di input | Scegliere il parametro Espressione o Pipeline come tipo di input. |
- Per le espressioni, utilizzare il Builder di espressioni integrato per creare una variabile che risulta da un'espressione personalizzata.
- Per i parametri della pipeline, assegna un parametro della pipeline e utilizza il valore del parametro come input per la variabile utente.
Termina pipeline
È possibile avviare e controllare la fine di una pipeline con un nodo Terminate pipeline dalla categoria Control. Quando viene eseguito il flusso di errori, puoi facoltativamente specificare come gestire i lavori di preparazione o notebook che sono stati avviati dai nodi nella pipeline. È necessario specificare se attendere il completamento dei lavori, annullare i lavori, quindi arrestare la pipeline o arrestare tutto senza annullare. Specificare le opzioni per il nodo della pipeline Terminate.
Parametri di input
Parametro | Descrizione |
---|---|
Modalità terminatore (facoltativo) | Scegliere il comportamento per il flusso di errore |
La modalità terminatore può essere:
- Termina l'esecuzione della pipeline e tutti i lavori in esecuzione arresta tutti i lavori e arresta la pipeline.
- Annulla tutti i lavori in esecuzione e termina la pipeline annulla tutti i lavori in esecuzione prima di arrestare la pipeline.
- Termina esecuzione pipeline dopo la fine dei job in esecuzione attende il completamento dei job in esecuzione, quindi arresta la pipeline.
- Termina pipeline eseguita senza arrestare i lavori arresta la pipeline ma consente ai lavori in esecuzione di proseguire.
Aggiorna nodi
Utilizzare i nodi di aggiornamento per sostituire o aggiornare gli asset per migliorare le prestazioni. Ad esempio, se si desidera standardizzare i tag, è possibile eseguire l'aggiornamento per sostituire un tag con un nuovo tag.
Aggiorna i dettagli di addestramento per un esperimento AutoAI.
Aggiorna esperimento AutoAI
Parametri di input
Parametro | Descrizione |
---|---|
Esperimento AutoAI | Percorso di un progetto o di uno spazio, in cui risiede l'esperimento |
Nome esperimento AutoAI (facoltativo) | Nome dell'esperimento da aggiornare, con descrizione e tag facoltativi |
Descrizione dell'esperimento AutoAI (facoltativo) | Descrizione dell'esperimento |
Tag di esperimento AutoAI (facoltativo) | Tag per identificare l'esperimento |
Parametri di output
Parametro | Descrizione |
---|---|
Esperimento AutoAI | Percorso dell'esperimento aggiornato |
Aggiorna distribuzione batch
Utilizzare questi parametri per aggiornare una distribuzione batch.
Parametri di input
Parametro | Descrizione |
---|---|
Distribuzione | Percorso della distribuzione da aggiornare |
Nuovo nome per la distribuzione (facoltativo) | Nome o ID della distribuzione da aggiornare |
Nuova descrizione per la distribuzione (facoltativa) | Descrizione della distribuzione |
Nuove tag per la distribuzione (facoltativo) | Tag per l'identificazione della distribuzione |
Asset di ML | Nome o ID dell'asset di machine learning da distribuire |
Specifica hardware | Aggiornare la specifica hardware per il lavoro |
Parametri di output
Parametro | Descrizione |
---|---|
Distribuzione | Percorso della distribuzione aggiornata |
Aggiorna spazio di distribuzione
Aggiorna i dettagli per uno spazio.
Parametri di input
Parametro | Descrizione |
---|---|
Spazio | Percorso dello spazio esistente |
Nome spazio (facoltativo) | Aggiorna il nome spazio |
Descrizione spazio (facoltativo) | Descrizione dello spazio |
Tag spazio (facoltativo) | Tag per identificare lo spazio |
Istanza WML (facoltativo) | Specificare una nuova istanza Machine Learning |
istanza WML | Specificare una nuova istanza Machine Learning . Nota: anche se assegni un nome diverso per un'istanza nella IU, il nome del sistema è Machine Learning instance. Differenziare tra diverse istanze utilizzando il CRN dell'istanza |
Parametri di output
Parametro | Descrizione |
---|---|
Spazio | Percorso dello spazio aggiornato |
Aggiorna la distribuzione online
Utilizzare questi parametri per aggiornare una distribuzione in linea (servizio Web).
Parametri di input
Parametro | Descrizione |
---|---|
Distribuzione | Percorso della distribuzione esistente |
Nome distribuzione (facoltativo) | Aggiorna il nome della distribuzione |
Descrizione distribuzione (facoltativo) | Descrizione della distribuzione |
Tag di distribuzione (facoltativo) | Tag per l'identificazione della distribuzione |
Asset (facoltativo) | Asset di machine learning (o versione) da ridistribuire |
Parametri di output
Parametro | Descrizione |
---|---|
Distribuzione | Percorso della distribuzione aggiornata |
Elimina nodi
Configurare i parametri per le operazioni di eliminazione.
Elimina
È possibile eliminare:
- Esperimento AutoAI
- Distribuzione batch
- Spazio di distribuzione
- Distribuzione online
Per ciascun item, scegliere l'asset da eliminare.
Esegui nodi
Utilizzare questi nodi per addestrare un esperimento, eseguire uno script o eseguire un flusso di dati.
Esegui esperimento AutoAI
Forma e memorizza i modelli e le pipeline AutoAI experiment .
Parametri di input
Parametro | Descrizione |
---|---|
Esperimento AutoAI | Ricercare l'asset della pipeline ML o ottenere l'esperimento da un parametro della pipeline o l'output da un nodo precedente. |
Asset di dati di addestramento | Sfoglia o cerca i dati per addestrare l'esperimento. Si noti che è possibile fornire i dati al runtime utilizzando un parametro pipeline |
Asset di dati di holdout (facoltativo) | Facoltativamente, scegliere un file separato da utilizzare per i dati di holdout per le prestazioni di testingmodel |
Conteggio modelli (facoltativo) | Specificare il numero di modelli da salvare dalle pipeline con le prestazioni migliori. Il limite è 3 modelli |
Nome esecuzione (facoltativo) | Nome dell'esperimento e descrizione e tag facoltativi |
Prefisso nome modello (facoltativo) | Prefisso utilizzato per denominare i modelli addestrati. Il valore predefinito è < (nome esperimento)> |
Descrizione esecuzione (facoltativo) | Descrizione della nuova esecuzione di formazione |
Esegui tag (facoltativo) | Tag per nuova esecuzione di formazione |
Modalità di creazione (facoltativo) | Scegliere come gestire un caso in cui il flusso della pipeline tenta di creare un asset ed esiste uno con lo stesso nome. Uno tra: ignore , fail , overwrite |
Politica di errore (facoltativo) | Facoltativamente, sovrascrivere la politica di errore predefinita per il nodo |
Parametri di output
Parametro | Descrizione |
---|---|
Modelli | Elenco dei percorsi del modello N più elevato addestrato e persistente (ordinati per metrica di valutazione selezionata) |
Modello migliore | Percorso del modello vincente (basato sulla metrica di valutazione selezionata) |
Metriche del modello | un elenco di metriche del modello sottoposto a training (ogni elemento è un oggetto nidificato con metriche come: holdout_accuracy, holdout_average_precision, ...) |
Metrica modello vincente | metrica di valutazione eletta del modello vincente |
Metrica ottimizzata | Metrica utilizzata per ottimizzare il modello |
Stato esecuzione | Informazioni sullo stato del lavoro: in sospeso, in avvio, in esecuzione, completato, annullato o non riuscito con errori |
Messaggio di stato | Informazioni sullo stato del lavoro |
Esegui script Bash
Eseguire uno script Bash inline per automatizzare una funzione o un processo per la pipeline. È possibile immettere il codice dello script Bash manualmente oppure è possibile importare lo script bash da una risorsa, da un parametro della pipeline o dall'emissione di un altro nodo.
È anche possibile utilizzare uno script Bash per elaborare file di output di grandi dimensioni. Ad esempio, è possibile generare un grande elenco separato da virgole che è possibile iterare utilizzando un loop.
Nel seguente esempio, l'utente ha immesso manualmente il codice script in linea. Lo script utilizza lo strumento cpdctl
per ricercare in tutti i notebook con una tag di variabile impostata e aggrega i risultati in un elenco JSON. L'elenco può quindi essere utilizzato in un altro nodo, ad esempio l'esecuzione dei notebook restituiti dalla ricerca.
Parametri di input
Parametro | Descrizione |
---|---|
Codice script inline | Immettere uno script Bash nell'editor del codice in linea. Facoltativo: in alternativa, puoi selezionare una risorsa, assegnare un parametro della pipeline o selezionare da un altro nodo. |
Variabili di ambiente (facoltativo) | Specificare un nome variabile (la chiave) e un tipo di dati e aggiungere all'elenco di variabili da utilizzare nello script. |
Tipo di runtime (facoltativo) | Selezionare Utilizza runtime autonomo (predefinito) o un runtime condiviso. Utilizzare un runtime condiviso per le attività che richiedono l'esecuzione nei pod condivisi. |
Politica di errore (facoltativo) | Facoltativamente, sovrascrivere la politica di errore predefinita per il nodo |
Parametri di output
Parametro | Descrizione |
---|---|
Variabili di output | Configurare una coppia chiave / valore per ciascuna variabile personalizzata, quindi fare clic sul pulsante Aggiungi per popolare l'elenco di variabili dinamiche per il nodo |
Valore di ritorno | Valore di ritorno dal nodo |
Output standard | Output standard dallo script |
Errore standard | Messaggio di errore standard dallo script |
Stato esecuzione | Informazioni sullo stato del lavoro: in sospeso, in avvio, in esecuzione, completato, annullato o non riuscito con errori |
Messaggio di stato | Messaggio associato allo stato |
Regole per l'output dello script Bash
L'output per uno script Bash è spesso il risultato di un'espressione calcolata e può essere grande. Quando si esaminano le proprietà per uno script con un output di grandi dimensioni valido, è possibile visualizzare l'anteprima o scaricare l'output in un visualizzatore.
Queste regole gestiscono il tipo di output di grandi dimensioni valido.
- L'output di un
list_expression
è un'espressione calcolata, quindi è valido un output di grandi dimensioni. - L'output della stringa viene trattato come un valore letterale piuttosto che come un'espressione calcolata, quindi deve seguire i limiti di dimensione che gestiscono le espressioni in linea. Ad esempio, si viene avvisati quando un valore letterale supera 1 KB e i valori di 2 KB e superiori risultano in un errore.
- È possibile includere messaggi di errore standard nell'output standard (
standard_output
) e visualizzarli, ad esempio con la funzioneGetCommandOutput
.
Riferimento a una variabile in uno script Bash
Il modo in cui si fa riferimento a una variabile in uno script dipende dal fatto che la variabile sia stata creata come variabile di input o come variabile di output. Le variabili di emissione vengono create come file e richiedono un percorso file nel riferimento. In particolare:
- Le variabili di input sono disponibili utilizzando il nome assegnato
- I nomi delle variabili di output richiedono che
_PATH
sia aggiunto al nome della variabile per indicare che i valori devono essere scritti nel file di output indicato dalla variabile{output_name}_PATH
.
Esegui distribuzione batch
Configurare questo nodo per eseguire i lavori di distribuzione selezionati.
Parametri di input
Parametro | Descrizione |
---|---|
Distribuzione | Sfoglia o cerca il lavoro di distribuzione |
Asset di dati di input | Specificare i dati utilizzati per il lavoro batch |
Asset di output | Nome del file di output per i risultati del lavoro batch. È possibile selezionare Nome file e immettere un nome file personalizzato oppure Asset dati e selezionare un asset esistente in uno spazio. |
Specifica hardware (facoltativo) | Ricercare una specifica hardware da applicare per il lavoro |
Politica di errore (facoltativo) | Facoltativamente, sovrascrivere la politica di errore predefinita per il nodo |
Parametri di output
Parametro | Descrizione |
---|---|
Lavoro | Percorso del file con i risultati del lavoro di distribuzione |
Esecuzione lavoro | ID per il lavoro |
Stato esecuzione | Informazioni sullo stato del lavoro: in sospeso, in avvio, in esecuzione, completato, annullato o non riuscito con errori |
Messaggio di stato | Informazioni sullo stato del lavoro |
IBM DataStage è uno strumento di integrazione dati per la progettazione, lo sviluppo ed esecuzione di job che spostano e trasformano i dati. Eseguire un job DataStage e utilizzare l'output in un nodo successivo.
Ad esempio, il seguente flusso mostra un nodo Esegui DataStage che richiama i dati da un repository Git . Se il lavoro viene completato correttamente, la pipeline esegue il nodo successivo e crea uno spazio di distribuzione. Se il lavoro ha esito negativo, viene attivata un'e-mail di notifica e il loop viene terminato.
Parametro | Descrizione |
---|---|
Lavoro DataStage | Percorso del job DataStage |
Valori per i parametri locali (facoltativo) | Modificare i parametri del lavoro predefiniti. Questa opzione è disponibile solo se si dispone di parametri locali nel lavoro. |
Valori dalle serie di parametri (facoltativo) | Modificare le serie di parametri utilizzate da questo processo. È possibile scegliere di utilizzare i parametri come definiti per impostazione predefinita oppure utilizzare le serie di valori da altri parametri delle pipeline. |
Ambiente | Trovare e selezionare l'ambiente utilizzato per eseguire il lavoro DataStage . Attenzione: lasciare il campo degli ambienti invariato per utilizzare il runtime XS DataStage predefinito. Se si sceglie di sovrascrivere, specificare un ambiente alternativo per l'esecuzione del lavoro. Assicurarsi che l'ambiente specificato sia compatibile con la configurazione hardware per evitare un errore di runtime.
|
Variabili di ambiente (facoltativo) | Specificare un nome di variabile (la chiave) e un tipo di dati e aggiungerli all'elenco di variabili da utilizzare nel processo |
Parametri del job (facoltativo) | Parametro aggiuntivo da passare al processo quando viene eseguito. Specificare una coppia chiave / valore e aggiungere all'elenco. Nota: se viene utilizzato il parametro locale
DSJobInvocationId , tale valore viene passato come nome lavoro nel dashboard dei dettagli del lavoro. |
Politica di errore (facoltativo) | Facoltativamente, sovrascrivere la politica di errore predefinita per il nodo |
Parametri di output
Parametro | Descrizione |
---|---|
Lavoro | Percorso dei risultati del job DataStage |
Esecuzione lavoro | Informazioni sull'esecuzione del lavoro |
Nome lavoro | Nome del lavoro |
Stato esecuzione | Informazioni sullo stato del lavoro: in sospeso, in avvio, in esecuzione, completato, annullato o non riuscito con errori |
Messaggio di stato | Informazioni sullo stato del lavoro |
Esegui lavoro Data Refinery
Questo nodo esegue un job Data Refinery specificato.
Parametri di input
Parametro | Descrizione |
---|---|
Lavoro Data Refinery | Percorso del lavoro Data Refinery . |
Ambiente | Percorso dell'ambiente utilizzato per eseguire il job Attenzione: lasciare il campo degli ambienti invariato per utilizzare il runtime predefinito. Se si sceglie di sovrascrivere, specificare un ambiente alternativo per l'esecuzione del lavoro. Assicurarsi che qualsiasi ambiente specificato sia compatibile con la lingua del componente e la configurazione hardware per evitare un errore di runtime.
|
Politica di errore (facoltativo) | Facoltativamente, sovrascrivere la politica di errore predefinita per il nodo |
Parametri di output
Parametro | Descrizione |
---|---|
Lavoro | Percorso dei risultati del lavoro Data Refinery |
Esecuzione lavoro | Informazioni sull'esecuzione del lavoro |
Nome lavoro | Nome del lavoro |
Stato esecuzione | Informazioni sullo stato del flusso: in sospeso, in avvio, in esecuzione, completato, annullato o non riuscito con errori |
Messaggio di stato | Informazioni sullo stato del flusso |
Esegui lavoro notebook
Utilizzare queste opzioni di configurazione per specificare come eseguire un Jupyter Notebook in una pipeline.
Parametri di input
Parametro | Descrizione |
---|---|
Lavoro Notebook | Percorso del lavoro notebook. |
Ambiente | Percorso dell'ambiente utilizzato per eseguire il notebook. Attenzione: lasciare il campo Ambienti invariato per utilizzare l'ambiente predefinito. Se si sceglie di sovrascrivere, specificare un ambiente alternativo per l'esecuzione del lavoro. Accertarsi che qualsiasi ambiente specificato sia compatibile con la lingua del notebook e la configurazione hardware per evitare un errore di runtime.
|
Variabili di ambiente (facoltativo) | Elenco delle variabili di ambiente utilizzate per eseguire il lavoro notebook |
Politica di errore (facoltativo) | Facoltativamente, sovrascrivere la politica di errore predefinita per il nodo |
Note:
- Le variabili di ambiente definite in una pipeline non possono essere utilizzate per i lavori notebook eseguiti all'esterno di Orchestration Pipelines.
- È possibile eseguire un notebook da un pacchetto di codice in un pacchetto regolare.
Parametri di output
Parametro | Descrizione |
---|---|
Lavoro | Percorso dei risultati del lavoro notebook |
Esecuzione lavoro | Informazioni sull'esecuzione del lavoro |
Nome lavoro | Nome del lavoro |
Variabili di output | Configurare una coppia chiave / valore per ciascuna variabile personalizzata, quindi fare clic su Aggiungi per popolare l'elenco di variabili dinamiche per il nodo |
Stato esecuzione | Informazioni sullo stato dell'esecuzione: in sospeso, in fase di avvio, in esecuzione, completata, annullata o non riuscita con errori |
Messaggio di stato | Informazioni sullo stato di esecuzione del notebook |
Esegui componente Pipeline
Eseguire un componente pipeline riutilizzabile creato utilizzando uno script Python . Per ulteriori informazioni, consultare Creazione di un componente personalizzato.
- Se è disponibile un componente pipeline, la configurazione del nodo presenta un elenco di componenti disponibili.
- Il componente scelto specifica l'immissione e l'emissione per il nodo.
- Una volta assegnato un componente ad un nodo, non è possibile eliminare o modificare il componente. È necessario eliminare il nodo e crearne uno nuovo.
Esegui lavoro pipeline
Aggiungere una pipeline per eseguire un lavoro della pipeline nidificata come parte di una pipeline contenente. Questo è un modo di aggiungere processi riutilizzabili a più pipeline. Puoi utilizzare l'output da una pipeline nidificata che viene eseguito come input per un nodo nella pipeline che lo contiene.
Parametri di input
Parametro | Descrizione |
---|---|
Lavoro pipeline | Selezionare o immettere un percorso per un lavoro Pipeline esistente. |
Ambiente (facoltativo) | Selezionare l'ambiente in cui eseguire il lavoro Pipelines e assegnare le risorse di ambiente. Attenzione: lasciare il campo degli ambienti invariato per utilizzare il runtime predefinito. Se si sceglie di sovrascrivere, specificare un ambiente alternativo per l'esecuzione del lavoro. Assicurarsi che qualsiasi ambiente specificato sia compatibile con la lingua del componente e la configurazione hardware per evitare un errore di runtime.
|
Nome esecuzione lavoro (facoltativo) | Viene utilizzato un nome di esecuzione lavoro predefinito a meno che non venga sovrascritto specificando un nome di esecuzione lavoro personalizzato. È possibile vedere il nome di esecuzione del lavoro nel dashboard Dettagli lavoro . |
Valori per i parametri locali (facoltativo) | Modificare i parametri del lavoro predefiniti. Questa opzione è disponibile solo se si dispone di parametri locali nel lavoro. |
Valori dalle serie di parametri (facoltativo) | Modificare le serie di parametri utilizzate da questo processo. È possibile scegliere di utilizzare i parametri come definiti per impostazione predefinita oppure utilizzare le serie di valori da altri parametri delle pipeline. |
Politica di errore (facoltativo) | Facoltativamente, sovrascrivere la politica di errore predefinita per il nodo |
Parametri di output
Parametro | Descrizione |
---|---|
Lavoro | Percorso dei risultati dal lavoro della pipeline |
Esecuzione lavoro | Informazioni sull'esecuzione del lavoro |
Nome lavoro | Nome del lavoro |
Stato esecuzione | Restituisce il valore: Completato, Completato con avvertenze, Completato con errori, Non riuscito o Annullato |
Messaggio di stato | Messaggio associato allo stato |
Note per l'esecuzione di lavori pipeline nidificati
Se si crea una pipeline con pipeline nidificate ed si esegue un job di pipeline dal livello superiore, le pipeline vengono denominate e salvate come asset di progetto che utilizzano questa convenzione:
- Il lavoro pipeline di livello superiore è denominato "Lavoro di prova - guid pipeline".
- All subsequent jobs are named "pipeline_ guid pipeline".
Esegui lavoro SPSS Modeler
Utilizzare queste opzioni di configurazione per specificare come eseguire un SPSS Modeler in una pipeline.
Parametri di input
Parametro | Descrizione |
---|---|
Lavoro SPSS Modeler | Selezionare o immettere un percorso per un job SPSS Modeler esistente. |
Ambiente (facoltativo) | Selezionare l'ambiente in cui eseguire il job SPSS Modeler e assegnare le risorse dell'ambiente. Attenzione: lasciare il campo degli ambienti invariato per utilizzare il runtime predefinito di SPSS Modeler . Se si sceglie di sovrascrivere, specificare un ambiente alternativo per l'esecuzione del lavoro. Assicurarsi che l'ambiente specificato sia compatibile con la configurazione hardware per evitare un errore di runtime.
|
Valori per parametri locali | Modificare i parametri del lavoro predefiniti. Questa opzione è disponibile solo se si dispone di parametri locali nel lavoro. |
Politica di errore (facoltativo) | Facoltativamente, sovrascrivere la politica di errore predefinita per il nodo |
Parametri di output
Parametro | Descrizione |
---|---|
Lavoro | Percorso dei risultati dal lavoro della pipeline |
Esecuzione lavoro | Informazioni sull'esecuzione del lavoro |
Nome lavoro | Nome del lavoro |
Stato esecuzione | Restituisce il valore: Completato, Completato con avvertenze, Completato con errori, Non riuscito o Annullato |
Messaggio di stato | Messaggio associato allo stato |
Ulteriori informazioni
Argomento principale: Creazione di una pipeline