Il nodo PCA/fattoriale offre potenti tecniche di riduzione dei dati che consentono di diminuirne la complessità. Esistono due approcci simili ma distinti.
- L'analisi dei componenti principali (PCA, Principal Components Analysis) trova le combinazioni lineari dei campi di input che catturano meglio la varianza nell'intero insieme di campi, dove i componenti sono ortogonali (perpendicolari) l'uno rispetto all'altro. La PCA prende in esame qualsiasi varianza, sia quella condivisa sia quella univoca.
- L'analisi fattoriale tenta di identificare i concetti sottostanti, o fattori, che spiegano lo schema delle correlazioni all'interno dell'insieme di campi osservati. L'analisi fattoriale prende in esame solo la varianza condivisa. La varianza che interessa solo specifici campi non viene presa in considerazione nella stima del modello. Il nodo Fattoriale offre diversi metodi di analisi fattoriale.
Entrambi gli approcci mirano a trovare un numero ridotto di campi derivati che riassumono in modo efficace le informazioni presenti nell'insieme originale di campi.
Requisiti. In un modello PCA/fattoriale è possibile utilizzare solo campi numerici. Per stimare un'analisi fattoriale o PCA, è necessario che siano presenti uno o più campi con il ruolo impostato su Input
. I campi con il ruolo impostato su Target
, Both
o None
vengono ignorati, così come i campi non numerici.
Efficacia. L'analisi fattoriale e l'analisi PCA possono ridurre in modo efficiente la complessità dei dati senza pregiudicare troppo il contenuto delle informazioni. Queste tecniche possono semplificare la generazione di modelli più solidi e la cui esecuzione è più rapida di quanto non sarebbe possibile con i campi di input non elaborati.