Automatizzare la modellazione per un target di bandiera
Ultimo aggiornamento: 11 feb 2025
Automatizzare la modellazione per un target di bandiera
Questa esercitazione utilizza il nodo Classificatore automatico per creare automaticamente e confrontare una serie di modelli diversi per obiettivi di tipo flag (come ad esempio la probabilità che un cliente specifico sia inadempiente su un prestito o risponda a una particolare offerta) o di tipo nominale (impostato).
In questo esempio, si cerca un risultato di tipo flag (sì o no). Nell'ambito di un flusso relativamente semplice,
il nodo genera e classifica una serie di modelli candidati, sceglie quelli che funzionano meglio e li combina
in un singolo modello aggregato (nell'insieme). Questo approccio combina la facilità di automazione con i vantaggi di combinare più modelli
il che spesso fornisce previsioni più precise rispetto a quelle che si possono ottenere da un solo modello.
Questo esempio si basa su una società fittizia che desidera ottenere risultati più redditizi abbinando l'offerta appropriata a ogni cliente. Questo approccio esalta i vantaggi dell'automazione. Per un esempio simile che utilizza un obiettivo continuo (intervallo numerico), consultare le altre esercitazioni diSPSS® Modeler.
Anteprima del tutorial
Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta. Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Prova il tutorial
In questa esercitazione, completerete questi compiti:
Questa esercitazione utilizza il flusso Automated Modeling for a Flag Target del progetto campione. Il file di dati utilizzato è pm_customer_train1.csv L'immagine seguente mostra il flusso del modellatore di esempio.
Figura 1. Flusso del modellatore di campioni
Questo esempio utilizza il file di dati pm_customer_train1.csv, che contiene dati storici che tengono traccia delle offerte fatte a clienti specifici in campagne passate, come indicato dal valore del campo " campaign.
L'immagine seguente mostra il set di dati di esempio.Figura 2. Dataset di esempio
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
In Cloud Pak for Data, dal menu di navigazione, scegliere Progetti > Visualizza tutti i progetti.
Fare clic su ProgettoSPSS Modeler.
Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controllare i propri progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
La modellazione automatizzata per un obiettivo di bandiera comprende diversi nodi. Per esaminare il nodo Asset di dati, procedere come segue.
Dalla scheda Risorse, aprire il flusso di modellazione automatica per un target di bandiera e attendere il caricamento dell'area di disegno.
Fare doppio clic sul nodo pm_customer_train1.csv Questo nodo è una risorsa dati che punta al file pm_customer_train1.csv del progetto.
Esaminare il 'Proprietà del formato del file.
Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
Il numero maggiore di record rientra nella campagna
Conto Premium. I valori del campo " campaign sono codificati come numeri interi nei dati (ad esempio " 2 = Premium account). In seguito, si definiscono le etichette per questi valori, che possono essere utilizzate per fornire un output più significativo.
Il file include anche un campo " response che indica se l'offerta è stata accettata (0 =
no e " 1 = yes). Il campo 'response è il campo di destinazione, o valore, che si vuole prevedere. Sono inclusi anche vari campi contenenti informazioni demografiche e finanziarie su ciascun cliente. Questi campi vengono utilizzati per costruire o addestrare un modello che preveda i tassi di risposta per gli individui o i gruppi in base a caratteristiche come il reddito, l'età o il numero di transazioni al mese.
Controllare i propri progressi
L'immagine seguente mostra il nodo Data Asset. Ora si è pronti a modificare il nodo Tipo.
Dopo aver esplorato la risorsa dati, seguire i passaggi seguenti per visualizzare e modificare le proprietà del nodo Tipo:
Fare doppio clic sul nodo Tipo. Questo nodo specifica le proprietà dei campi, come il livello di misurazione (il tipo di dati che il campo contiene) e il ruolo di ciascun campo come target o input nella modellazione. Il livello di
misurazione è una categoria che indica il tipo di dati all'interno del campo. Il file di dati di origine utilizza tre diversi livelli di misurazione:
Un campo continuo (come il campo " Age ) contiene valori numerici continui.
Un campo nominale (come il campo " Education ) ha due o più valori distinti; in questo caso. College o 'High school.
Un campo ordinale (come il campo " Income level ) descrive dati con più valori distinti che hanno un ordine intrinseco; in questo caso, " Low, " Medium e " High.
Verificare che il campo di risposta # sia il campo target (Ruolo = Target) e che la misura per questo campo sia Flag.Figura 3. Impostare il livello di misurazione e il ruolo
Verificare che il ruolo sia impostato su Nessuno per i seguenti campi. Questi campi vengono ignorati durante la costruzione del modello.
iD cliente
campagna
data_risposta
acquisto
data_acquisto
ID_Prodotto
ROWID
X_random
Fare clic su Leggi valori nel nodo Tipo per assicurarsi che i valori siano istanziati.
Come si è visto in precedenza, i dati di origine includono informazioni su quattro diverse campagne, ciascuna mirata a un diverso tipo di cliente. Queste campagne sono codificate come numeri interi nei dati, quindi per ricordare quale tipo di conto rappresenta ciascun numero intero, è necessario definire delle etichette per ciascuno di essi.
Figura 4. Scegliere di specificare i valori per un campo
Nella riga # campagna e nella colonna Modalità valore, selezionare Specifica dall'elenco.
Fare clic sull'icona Modifica nella riga del campo # campagna.
Verificare le etichette come indicato per ciascuno dei quattro valori.Figura 5. Definire le etichette per i valori dei campi
Fare clic su OK. Ora le etichette vengono visualizzate nelle finestre di output al posto degli interi.
Fare clic su Salva.
Facoltativo: Fare clic su Anteprima dati per vedere il set di dati con le proprietà del tipo applicate.
Controllare i propri progressi
L'immagine seguente mostra il nodo Tipo. Ora si è pronti a selezionare una campagna da analizzare.
Sebbene i dati includano informazioni su quattro diverse campagne, l'analisi si concentra su una campagna alla volta. Procedere come segue per visualizzare il nodo Seleziona per analizzare solo la campagna dell'account Premium:
Fare doppio clic sul nodo Select per visualizzarne le proprietà.
Si noti la condizione. Poiché il maggior numero di record rientra nella campagna dell'account Premium (codificato con " campaign=2 nei dati), il nodo Select seleziona solo questi record.
Facoltativo: Fare clic su Anteprima dati per vedere il set di dati con le proprietà di selezione applicate.
Controllare i propri progressi
L'immagine seguente mostra il nodo Select. Ora si è pronti a costruire il modello.
Dopo aver selezionato una singola campagna da analizzare, seguire i seguenti passaggi per costruire il modello che utilizza il nodo Classificatore automatico:
Fare doppio clic sul nodo Response (Auto Classifier) per visualizzarne le proprietà.
Espandere la sezione Opzioni di costruzione.
Nel campo Classifica modelli per, selezionare Accuratezza complessiva come metrica utilizzata per classificare i modelli.
Impostare il Numero di modelli da utilizzare su '3. Questa opzione significa che i tre modelli migliori vengono costruiti quando si esegue il nodo.Figura 6. Opzioni di build del nodo classificatore automatico
Espandere la sezione Esperto per vedere i diversi algoritmi di modellazione.
Deselezionare i tipi di modello Discriminante, SVM e Foresta casuale. L'addestramento di questi modelli su questi dati richiede più tempo, quindi la loro eliminazione velocizza l'esempio.
Avendo impostato la proprietà Numero di modelli da utilizzare su '3 in Opzioni di costruzione, il nodo calcola l'accuratezza degli algoritmi rimanenti e genera un singolo nugget di modello contenente i tre più accurati.
Figura 7. Opzioni avanzate per il nodo Classificatore automatico
Nelle opzioni dell'ensemble, selezionare il voto ponderato in base alla fiducia come metodo di ensemble sia per gli obiettivi impostati che per gli obiettivi segnalati. Questa impostazione determina il modo in cui viene prodotto un singolo punteggio aggregato per ogni record.
Con il voto semplice, se due modelli su tre prevedono il sì, allora il sì vince con un voto di 2 a 1. Nel caso del voto ponderato sulla fiducia, i voti sono ponderati in base al valore di fiducia di ciascuna previsione. Pertanto, se un modello prevede no con una confidenza superiore rispetto alle due previsioni combinate di sì
prevale il no.
Figura 8. Opzioni di insieme del nodo Classificatore automatico
Fare clic su Salva.
Passare il mouse sul nodo Response (Auto Classifier) e fare clic sull'icona Run.
Nel riquadro Output e modelli, fare clic sul modello con il nome risposta per visualizzare i risultati. Vengono visualizzati i dettagli relativi a ciascuno dei modelli creati durante l'esecuzione. (In una situazione reale, in cui potrebbero essere creati centinaia di modelli su un grande insieme di dati, l'esecuzione del flusso potrebbe richiedere molte ore)
Fare clic sul nome di un modello per esplorare i risultati dei singoli modelli.
Per impostazione predefinita, i modelli sono ordinati in base all'accuratezza complessiva, perché è stata selezionata questa misura nelle proprietà del nodo Auto Classifier. Il
modello XGBoost Tree genera una classificazione ottimale in base a questa
misura, ma i modelli C5.0 e C&RT sono ugualmente accurati.
In base a questi risultati, si decide di utilizzare tutti e tre questi modelli precisi. Combinando le previsioni di più modelli, si possono evitare le limitazioni dei singoli modelli, ottenendo una maggiore accuratezza complessiva.
Nella colonna USE, verificare che tutti e tre i modelli siano stati realizzati, quindi chiudere la finestra del modello.
Controllare i propri progressi
L'immagine seguente mostra la tabella di confronto dei modelli. Ora si è pronti a eseguire l'analisi del modello.
Dopo aver esaminato i modelli generati, seguire i seguenti passaggi per eseguire un'analisi dei modelli:
Passare il mouse sul nodo Analisi e fare clic sull'icona Esegui.
Nel riquadro Output e modelli, fare clic sull'output Analisi per visualizzare i risultati.
Il punteggio aggregato generato dal modello assemblato viene mostrato in un campo denominato " $XF-response. Se confrontato con i dati di addestramento, il valore previsto corrisponde alla risposta effettiva (registrata nel campo " response originale) con un'accuratezza complessiva del 92.77. Ma non altrettanto preciso come il migliore dei tre singoli modelli in questo caso
(92.82% per C5.0), la differenza è talmente piccola per essere significativa. In termini generali, un modello di insieme generalmente si deve eseguire più probabilmente quando
applicato a dataset piuttosto che ai dati di addestramento.
Controllare i propri progressi
L'immagine seguente mostra il confronto del modello che utilizza il nodo Analisi.
In questo esempio di flusso 'Modellazione automatizzata per un obiettivo a bandiera, si è utilizzato il nodo 'Classificatore automatico per confrontare diversi modelli, si sono utilizzati i tre modelli più accurati e li si è aggiunti al flusso all'interno di un nugget di modello Auto Classifier assemblato.
In base alle precisione generale, i modelli
XGBoost Tree, C5.0 e C&R Tree hanno generato prestazioni migliori sui
dati di addestramento.
Il modello assemblato ha ottenuto risultati quasi pari al migliore dei singoli modelli e potrebbe essere più performante se applicato ad altri set di dati. Se l'obiettivo è automatizzare il più possibile il processo, questo approccio consente di ottenere un modello robusto nella maggior parte delle circostanze, senza dover scavare a fondo nelle specificità di ogni singolo modello.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Tasks you'll do
Some tasks have a choice of tools and services.
Tools you'll use
Some tools perform the same tasks but have different features and levels of automation.
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Automate the model lifecycle, including preparing data, training models, and creating deployments.
Work with R notebooks and scripts in an integrated development environment.
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deploy and run your data science and AI solutions in a test or production environment.
Find and share your data and other assets.
Import asset metadata from a connection into a project or a catalog.
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Measure and monitor the quality of your data.
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Create your business vocabulary to enrich assets and rules to protect data.
Track data movement and usage for transparency and determining data accuracy.
Track AI models from request to production.
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Create a virtual table to segment or combine data from one or more tables.
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
Discover, profile, catalog, and share trusted data in your organization.
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
View, access, manipulate, and analyze your data without moving it.
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Where you work with data.
> Projects > View all projects
Where you find and share assets.
> Catalogs > View all catalogs
Where you deploy and run assets that are ready for testing or production.
> Deployments
Where you manage governance artifacts.
> Governance > Categories
Where you virtualize data.
> Data > Data virtualization
Where you consolidate data into a 360 degree view.
Informazioni sui cookie del presente sitoPer il corretto funzionamento, i nostri siti Web richiedono alcuni cookie (richiesto). Inoltre, con il suo consenso, potrebbero essere utilizzati altri cookie per l'analisi dell'utilizzo del sito, per migliorare l'esperienza utente e per scopi pubblicitari.Per ulteriori informazioni, consultare le. Visitando il nostro sito web, accettate il trattamento delle informazioni da parte nostra come descritto nelladichiarazione sulla privacy di IBM.Per consentire una corretta navigazione, le preferenze per i cookie dell'utente verranno condivise sui domini Web IBM qui elencati.