Prima di iniziare l'estrazione dei dati e la creazione di modelli in SPSS Modeler, è necessario preparare i dati. Preparare i dati significa dedicare il tempo necessario per comprenderli ed elaborarli in modo da ottimizzarli per il data mining.
La qualità dei dati può determinare la qualità dei modelli. La preparazione dei dati garantisce che i dati siano puliti e pronti per l'analisi.
SPSS Modeler si basa sulla metodologia Cross-Industry Standard Process for Data Mining (CRISP-DM). che presenta le seguenti fasi.
- Business Understanding
- Data Understanding
- Preparazione dati
- Modellazione
- Valutazione
- Distribuzione
Le prime tre fasi sono quelle in cui i dati vengono raccolti, valutati e preparati. Parte di questo lavoro può essere svolto in SPSS Modeler, ma parte del lavoro in queste fasi avviene anche prima di lavorare in SPSS Modeler.
Business Understanding
Prima di iniziare a lavorare con SPSS Modeler, è importante conoscere il più possibile gli obiettivi aziendali del data mining. Ad esempio, comprendere la prospettiva aziendale per determinare i punti dolenti, i requisiti del progetto, gli obiettivi aziendali per il data mining e il modo in cui il data mining può fornire informazioni utili per risolvere i problemi aziendali.
Questa fase di raccolta e preparazione dei dati avviene al di fuori di SPSS Modeler. Ma questo lavoro può determinare quali dati devono essere raccolti e su quali dati vale la pena concentrarsi.
Data Understanding
La comprensione dei dati comporta la valutazione dei dati e la loro esplorazione per determinarne la qualità. Prendete il tempo necessario per comprendere la struttura dei dati, le relazioni e i modelli utilizzando tecniche come la visualizzazione dei dati, le statistiche di sintesi e l'analisi delle correlazioni. Questa fase è fondamentale per evitare problemi imprevisti durante la preparazione dei dati.
SPSS Modeler dispone di un nodo Audit, che può essere utilizzato per una prima analisi completa dei dati. Può generare informazioni come statistiche di riepilogo, istogrammi, box plot, grafici a barre, grafici a torta e altro ancora. Queste informazioni possono essere utili per ottenere una comprensione preliminare dei dati. È inoltre in grado di generare informazioni su outlier, estremi e valori mancanti.
Se avete accesso a questi altri servizi su Cloud Pak for Data, possono essere utili;
- Data Refinery
- È possibile utilizzare Data Refinery per comprendere e visualizzare i dati.
- MANTA Automated Data Lineage
- È possibile utilizzare MANTA Automated Data Lineage per tracciare e trovare l'origine dei dati.
- RStudio®
- RStudio è utile per eseguire comandi in R per esplorare i dati.
Preparazione dati
La preparazione dei dati è una delle parti più importanti del data mining e può rappresentare una parte significativa del lavoro richiesto per l'intero progetto. L'impegno profuso nelle fasi precedenti di comprensione del business e dei dati può ridurre al minimo questo lavoro, ma è comunque necessario preparare e confezionare i dati per l'estrazione.
Lavorate alle seguenti attività per preparare i vostri dati. Queste attività sono necessarie per garantire che i dati siano ben preparati, puliti e pronti per l'analisi.
- pulitura dei dati
- È essenziale gestire i valori mancanti, rimuovere i duplicati e correggere i problemi di formattazione.
- Trasformazione dati
- Standardizzare e normalizzare i dati per garantire la coerenza e ridurre il rumore. Queste fasi possono comportare il ridimensionamento, la normalizzazione dello z-score o la codifica one-hot.
- Riduzione dei dati
- Ridurre la dimensionalità dei dati selezionando le caratteristiche più rilevanti. È possibile utilizzare tecniche come l'analisi delle componenti principali (PCA), l'analisi discriminante lineare (LDA) o l'incorporazione t-distribuita dei vicini stocastici (t-SNE).
- Integrazione dati
- Unite i dati provenienti da fonti diverse per creare una visione più completa dei vostri dati. Potrebbe essere necessario unire tabelle, unire set di dati o utilizzare tecniche di fusione dei dati.
- Convalida dati
- Convalidate i vostri dati per assicurarvi che siano accurati e affidabili. È possibile verificare la presenza di anomalie, valutare la variabilità o confrontare i dati con fonti esterne.
- Archiviazione dati
- Archiviare i dati in modo sicuro, accessibile e riproducibile. Per archiviare i dati si possono utilizzare database, magazzini di dati o soluzioni di archiviazione in cloud.
SPSS Modeler dispone di diversi nodi che possono essere utilizzati per queste attività di preparazione dei dati. È possibile utilizzare una combinazione di nodi Record Operations e Field Operations per creare flussi che preparano i dati.
Se si ha accesso ai seguenti servizi, è possibile utilizzarli anche per preparare i dati.
- Data Refinery
- È possibile utilizzare Data Refinery per pulire e trasformare i dati senza richiedere competenze di programmazione.
- DataStage
- È possibile utilizzare DataStage per l'integrazione dei dati e lo sviluppo di flussi che elaborano e trasformano i dati.
- IBM® Knowledge Catalog
- È possibile utilizzare IBM Knowledge Catalog per analizzare e migliorare la qualità dei dati e per assegnare classificazioni, classi di dati e termini aziendali alle risorse di dati
- RStudio
- È possibile utilizzare RStudio per eseguire comandi in R per esplorare i dati.
Anche se i dati non sono propri, gli utenti devono svolgere le stesse attività per comprenderli.