Il nugget del modello di estensione viene generato e posto nel proprio canvas di flusso dopo l'esecuzione
del nodo del modello di estensione, che contiene script R o Python for Spark che definisce la costruzione del modello ed il punteggio assegnato
al modello.
Per impostazione predefinita, il nugget del modello di estensione contiene lo script utilizzato per il punteggio del modello,
le opzioni per la lettura dei dati e qualsiasi output dalla console R o Python per Spark. Facoltativamente, il nugget del modello di estensione
può contenere anche varie altre forme di output del modello, come ad esempio grafici e output del testo. Dopo che il nugget del modello di estensione viene generato
e aggiunto al canvas di flusso, è possibile connettere con un nodo di output. Il nodo di output viene quindi utilizzato nel modo consueto all'interno del proprio
flusso per ottenere informazioni su dati e modelli e per l'esportazione dei dati in vari formati.
Scheda Sintassi
Copy link to section
Sintassi di calcolo del punteggio del modello R. Se in questo campo si utilizza R, viene visualizzato lo script R utilizzato
per il calcolo del punteggio del modello. Per impostazione predefinita, questo campo è
abilitato ma non modificabile. Per modificare lo script
di calcolo del punteggio del modello Python, fare clic su Modifica.
Sintassi di calcolo punteggio del modello Python. Se si utilizza Python per Spark, in questo campo
viene visualizzato lo script Python utilizzato per il calcolo del punteggio del modello. Per impostazione predefinita, questo campo è
abilitato ma non modificabile. Per modificare lo script
di calcolo del punteggio del modello Python, fare clic su Modifica.
Se si fa clic su Modifica per rendere modificabile il campo della sintassi del calcolo punteggio, è poi
possibile modificare il proprio script di calcolo punteggio del modello digitando nel campo della sintassi del punteggio. Ad esempio, potrebbe essere necessario
modificare lo script di calcolo del punteggio del modello se si identifica un errore nel proprio script di calcolo punteggio del modello dopo aver eseguito
il nodo del modello di estensione per generare un nugget del modello di estensione. Eventuali modifiche apportate allo script di
calcolo punteggio del modello nel nugget del modello di estensione verranno perse se si rigenera il modello eseguendo nuovamente
il nodo del modello di estensione.
Scheda Opzioni modello
Copy link to section
Opzioni dati di lettura. Queste opzioni valgono solo per R, non per Python for Spark. Con queste opzioni,
è possibile specificare come sono gestiti valori mancanti, campi indicatori e variabili con formati data o data/ora.
Dati di lettura in batch. Se si sta elaborando una grande quantità di dati (troppo
grande per adattarsi alla memoria del motore R, ad esempio), utilizzare questa opzione per suddividere i dati in batch che
possono essere inviati ed elaborati singolarmente. Specificare il numero massimo di record di dati da
includere in ogni lotto.
Sia per il nodo Trasforma estensione che per il nugget del modello Estensione, i dati
passano attraverso lo script R (in batch). Per questo motivo, gli script per il calcolo del modello e i nodi di processo che
vengono eseguiti in un ambiente Hadoop o in un database non dovrebbero includere operazioni che includono o associano righe nei dati,
come lo smistamento o l'aggregazione. Questa limitazione viene imposta per garantire che i dati possano essere suddivisi
in un ambiente Hadoop e durante l'analisi in-database mining. I nodi del Modello di estensione e dell'Output estensione
non hanno questa limitazione.
Converti campi indicatori Specifica il modo in cui vengono gestiti i campi indicatori. Esistono due opzioni: Stringhe da fattorizzare, Numeri interi e reali da raddoppiare e
Valori logici (True, False). Se si seleziona Valori logici (True,
False) i valori originali dei campi indicatori vengono persi. Ad esempio, se un campo ha i valori Male e Female, questi vengono modificati in True e False.
Converti valori mancanti sul valore R 'non disponibile' (NA). Quando questa opzione è selezionata, i valori mancanti vengono convertiti in RNAvalore. Il valoreNAviene utilizzato da R per identificare i valori mancanti. Alcune funzioni R utilizzate potrebbero avere un argomento che può controllare il comportamento della funzione quando i dati contengonoNA. Ad esempio, la funzione potrebbe consentire di scegliere di escludere automaticamente i record che contengonoNA. Se questa opzione non è selezionata, tutti i valori mancanti vengono passati a R invariati e potrebbero causare errori durante l'esecuzione dello script R.
Converti i campi data/ora in classi R con controllo speciale per zone temporali Quando selezionata,
le variabili con i formati data o data/ora vengono convertiti in oggetti data/ora R. Selezionare una delle seguenti opzioni:
R POSIXct. Le variabili con formati data o data/ora vengono convertite in RPOSIXctoggetti.
R POSIXlt (elenco). Le variabili con formati data o data / ora vengono convertite in RPOSIXltoggetti.
Nota: i formati POSIX sono opzioni avanzate. Utilizzare questa opzione solo se il proprio script
R specifica che i campi data/ora sono trattati in modi che richiedono questi formati. I formati POSIX
non si applicano alle variabili con formati di tempo.
Le opzioni selezionate per Converti campi indicatori, Converti
valori mancanti sul valore R 'not disponibile' (NA) e Converti campi data/ora
in classi R con controllo speciale per i controlli dei fusi orari non vengono riconosciute quando il nugget del modello di estensione
viene eseguito su un database. Quando il nodo viene eseguito su un database, vengono invece utilizzati i valori
predefiniti per questi controlli:
Converti campi indicatori è impostato su Stringhe da fattorizzare, Numeri interi e reali
da raddoppiare
Converti valori mancanti sul valore R 'non disponibile' (NA). è
selezionato
Converti i campi date/ora in classi R con controllo speciale fusi orari, non è
selezionato
Scheda Output console
Copy link to section
La scheda Output Console contiene qualsiasi output ricevuto quando viene eseguito
lo script R o Python per lo script Spark sulla scheda Sintassi (ad esempio, se si
utilizza uno script R, questa mostra l'output ricevuto dalla console R durante l'esecuzione dello script R nel campo Sintassi di calcolo del punteggio del modello
R sulla scheda Sintassi del nugget modello di estensione. Questo output include eventuali messaggi di errore
R o Python o avvertenze che vengono prodotte quando viene eseguito lo script R o Python e qualsiasi output
di testo dalla console R. L'output può essere utilizzato principalmente per
eseguire il debug dello script.
Ogni volta che viene eseguito lo script di calcolo del modello, il contenuto della scheda
Output Console viene sovrascritto con l'output ricevuto dalla console
R o Python per Spark. Non è possibile modificare l'output della console.