Questa esercitazione fornisce un esempio di preparazione dei dati per l'analisi. La preparazione dei dati è una delle fasi più importanti di qualsiasi progetto di data mining e, tradizionalmente, una delle più lunghe. Il nodo Auto Data Prep si occupa di questo compito, analizzando i dati e identificando le correzioni, eliminando i campi problematici o che non possono essere utili, ricavando nuovi attributi quando necessario e migliorando le prestazioni grazie a tecniche di screening intelligenti.
È possibile utilizzare il nodo Auto Data Prep in modo completamente automatico, consentendo al nodo di scegliere e applicare le correzioni, oppure è possibile visualizzare in anteprima le modifiche prima che vengano apportate e accettarle o rifiutarle. Con questo nodo, è possibile leggere i dati per il data mining rapidamente e facilmente senza la necessità
di conoscere a priori i concetti statistici coinvolti. Se si esegue il nodo con le impostazioni predefinite, i modelli tendono a costruirsi e a segnare più rapidamente.
Anteprima del tutorial
Guardate questo video per vedere in anteprima i passaggi di questa esercitazione. L'interfaccia utente mostrata nel video potrebbe presentare lievi differenze. Il video è destinato ad accompagnare l'esercitazione scritta. Questo video fornisce un metodo visivo per apprendere i concetti e le attività di questa documentazione.
Prova il tutorial
In questa esercitazione, completerete questi compiti:
Questa esercitazione utilizza il flusso Preparazione automatica dei dati nel progetto di esempio. Il file di dati utilizzato è telco.csv. Questo esempio dimostra la maggiore precisione che si può ottenere utilizzando le impostazioni predefinite del nodo Auto Data Prep quando si costruiscono i modelli. L'immagine seguente mostra il flusso del modellatore di esempio.
Figura 1. Flusso del modellatore di campioni
L'immagine seguente mostra il set di dati di esempio.Figura 2. Dataset di esempio
Compito 1: Aprire il progetto di esempio
Il progetto campione contiene diversi set di dati e flussi di modellazione di esempio. Se non si dispone già del progetto di esempio, consultare l'argomento Tutorial per creare il progetto di esempio. Seguite quindi i passaggi seguenti per aprire il progetto campione:
In Cloud Pak for Data, dal menu di navigazione, scegliere Progetti > Visualizza tutti i progetti.
Fare clic su ProgettoSPSS Modeler.
Fare clic sulla scheda Assets per visualizzare i set di dati e i flussi del modellatore.
Controlla i tuoi progressi
L'immagine seguente mostra la scheda Assets del progetto. Ora si è pronti a lavorare con il flusso del modellatore di esempio associato a questa esercitazione.
La Preparazione automatica dei dati comprende diversi nodi. Seguire i seguenti passaggi per esaminare i nodi 'Asset di dati e 'Tipo:
Dalla scheda Assets, aprire il flusso Automated Data Preparation del modellatore e attendere il caricamento dell'area di disegno.
Fare doppio clic sul nodo telco.csv Questo nodo è un nodo di risorse dati che punta al file telco.csv nel progetto.
Esaminare il 'Proprietà del formato del file.
Facoltativo: Fare clic su Anteprima dati per visualizzare l'intero set di dati.
Fare doppio clic sul nodo Tipo. Si noti che la misura per il campo 'churn è impostata su Flag e il ruolo è impostato su Target. Assicurarsi che il ruolo di tutti gli altri campi sia impostato su Input.Figura 3. Impostare il livello di misurazione e il ruolo
Facoltativo: Fare clic su Anteprima dati per vedere il set di dati con le proprietà del tipo applicate.
Controlla i tuoi progressi
L'immagine seguente mostra il nodo Tipo. Ora si è pronti a costruire il modello.
Costruirete due modelli, uno senza e uno con preparazione automatica dei dati. Seguite questi passaggi per costruire i modelli:
Fare doppio clic sul nodo No ADP - churn collegato al nodo Tipo per visualizzarne le proprietà.
Espandere la sezione Impostazioni modello
Verificare che la procedura sia impostata su Binomiale.
Verificare che il Nome modello sia impostato su Personalizzato e che il nome sia 'No ADP - churn.Figura 4. Sezione Impostazioni del modello del nodo logistico
Passare il mouse sul nodo No ADP - churn e fare clic sull'icona Esegui.
Nel riquadro Output e modelli, fare clic sul modello denominato No ADP - churn per visualizzare i risultati.
Visualizzare la pagina di riepilogo del modello, che mostra i campi predittivi utilizzati dal modello e la percentuale di previsioni corrette.
Visualizzare il riepilogo dell'elaborazione dei casi, che mostra il numero e la percentuale di record inclusi nell'analisi. Inoltre, elenca il numero di casi mancanti (se presenti) in cui uno o più campi di input non sono disponibili e i casi che non sono stati selezionati.
Chiudere i dettagli del modello.
Fare doppio clic sul nodo Auto Data Prep collegato al nodo Tipo per visualizzarne le proprietà. Automated Data Preparation si occupa della preparazione dei dati per voi, analizzando i vostri dati e identificando le correzioni, eliminando i campi problematici o non utili, ricavando nuovi attributi quando necessario e migliorando le prestazioni grazie a tecniche di screening intelligenti.
Nella sezione Obiettivi, lasciare le impostazioni predefinite per analizzare e preparare i dati bilanciando velocità e precisione. Altre proprietà del nodo Auto Data Prep consentono di specificare se si desidera concentrarsi maggiormente sull'accuratezza, sulla velocità di elaborazione o se si desidera regolare con precisione molte delle fasi di elaborazione per la preparazione dei dati.
Nota: se si desidera regolare le proprietà dei nodi ed eseguire nuovamente il flusso in futuro, poiché il modello esiste già, è necessario fare clic su Cancella la vecchia analisi, in Obiettivi, prima di eseguire nuovamente il flusso.
Facoltativo: Fare clic su Anteprima dati per vedere il set di dati con le proprietà di preparazione automatica dei dati applicate.
Fare clic su Annulla.
Fare doppio clic sul nodo After ADP - churn collegato al nodo Auto Data Prep per visualizzarne le proprietà.
Espandere la sezione Impostazioni modello
Verificare che la procedura sia impostata su Binomiale.
Verificare che il Nome modello sia impostato su Personalizzato e che il nome sia 'After ADP - churn.
Passare il mouse sul nodo Dopo ADP - churn e fare clic sull'icona Esegui.
Nel riquadro Output e modelli, fare clic sul modello denominato After ADP - churn per visualizzare i risultati.
Visualizzare la pagina di riepilogo del modello, che mostra i campi predittivi utilizzati dal modello e la percentuale di previsioni corrette.
Visualizzare il riepilogo dell'elaborazione dei casi, che mostra il numero e la percentuale di record inclusi nell'analisi. Inoltre, elenca il numero di casi mancanti (se presenti) in cui uno o più campi di input non sono disponibili e i casi che non sono stati selezionati.
Chiudere i dettagli del modello.
Controlla i tuoi progressi
L'immagine seguente mostra i dettagli del modello. Ora siete pronti a confrontare i modelli.
Ora che entrambi i modelli sono configurati, seguite i passaggi seguenti per generare e confrontare i modelli:
Passare il mouse sul nodo No ADP - LogReg (Analisi) e fare clic sull'icona Esegui.
Passare il mouse sul nodo Dopo ADP - LogReg (Analisi) e fare clic sull'icona Esegui.
Nel riquadro Output e modelli, fare clic sui risultati di output con il nome No ADP - LogReg per visualizzare i risultati.
Confrontate i modelli:
Fare clic su Confronta.
Nel campo Seleziona uscita, selezionare Dopo ADP - LogReg.
L'analisi del modello Auto Data Prep non derivato mostra che l'esecuzione dei dati attraverso il nodo Regressione logistica con le impostazioni predefinite fornisce un modello con un'accuratezza bassa, appena 10.6.Figura 5. Risultati del modello derivato da ADP
L'analisi del modello derivato da Auto-Data Prep mostra che eseguendo i dati attraverso le impostazioni predefinite di Auto Data Prep, è stato costruito un modello molto più accurato, corretto al 78.3.Figura 6. Risultati del modello derivato da ADP
Controlla i tuoi progressi
L'immagine seguente mostra il confronto tra i modelli.
Eseguendo il nodo Auto Data Prep per perfezionare l'elaborazione dei dati, è stato possibile costruire un modello più accurato con una manipolazione diretta dei dati minima.
Ovviamente, se siete interessati a dimostrare o confutare una certa teoria o volete costruire modelli specifici, potreste trovare vantaggioso lavorare direttamente con le impostazioni del modello. Tuttavia, se il tempo a disposizione è limitato o la quantità di dati da preparare è elevata, il nodo Auto Data Prep può offrire un vantaggio.
I risultati di questo esempio si basano solo sui dati di addestramento. Per valutare la generalizzazione dei modelli ad altri dati del mondo reale, si può usare un nodo Partition per tenere un sottoinsieme di record a scopo di test e convalida.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Tasks you'll do
Some tasks have a choice of tools and services.
Tools you'll use
Some tools perform the same tasks but have different features and levels of automation.
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Automate the model lifecycle, including preparing data, training models, and creating deployments.
Work with R notebooks and scripts in an integrated development environment.
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deploy and run your data science and AI solutions in a test or production environment.
Find and share your data and other assets.
Import asset metadata from a connection into a project or a catalog.
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Measure and monitor the quality of your data.
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Create your business vocabulary to enrich assets and rules to protect data.
Track data movement and usage for transparency and determining data accuracy.
Track AI models from request to production.
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Create a virtual table to segment or combine data from one or more tables.
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
Discover, profile, catalog, and share trusted data in your organization.
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
View, access, manipulate, and analyze your data without moving it.
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Where you work with data.
> Projects > View all projects
Where you find and share assets.
> Catalogs > View all catalogs
Where you deploy and run assets that are ready for testing or production.
> Deployments
Where you manage governance artifacts.
> Governance > Categories
Where you virtualize data.
> Data > Data virtualization
Where you consolidate data into a 360 degree view.
Informazioni sui cookie del presente sitoPer il corretto funzionamento, i nostri siti Web richiedono alcuni cookie (richiesto). Inoltre, con il suo consenso, potrebbero essere utilizzati altri cookie per l'analisi dell'utilizzo del sito, per migliorare l'esperienza utente e per scopi pubblicitari.Per ulteriori informazioni, consultare le. Visitando il nostro sito web, accettate il trattamento delle informazioni da parte nostra come descritto nelladichiarazione sulla privacy di IBM.Per consentire una corretta navigazione, le preferenze per i cookie dell'utente verranno condivise sui domini Web IBM qui elencati.