El nodo PCA/Factorial proporciona técnicas eficaces de reducción de datos para reducir la complejidad de los datos. Se indican dos métodos similares pero distintos.
- Análisis de componentes principales (PCA) encuentra las combinaciones lineales de los campos de entrada que mejor realizan la tarea de capturar la varianza disponible en la totalidad del conjunto de campos, de manera que los componentes son ortogonales (perpendiculares) unos de otros. PCA se centra en todas las varianzas, incluyendo tanto las varianzas comunes como las exclusivas. PCA se centra en todas las varianzas, incluidas las compartidas y las exclusivas.
- Análisis factorial intenta identificar conceptos subyacentes o factores que expliquen el patrón de correlaciones dentro de un conjunto de campos observados. El análisis factorial sólo se centra en las varianzas compartidas. La varianza que es exclusiva a campos específicos no se tiene en cuenta a la hora de estimar el modelo. El nodo PCA/Factorial proporciona varios métodos de análisis factorial.
Para los dos métodos, el objetivo es encontrar un número pequeño de campos derivados que resuman de forma eficaz la información del conjunto original de campos.
Requisitos. Sólo se pueden utilizar campos numéricos en un modelo PCA-factorial. Para estimar un análisis factorial o PCA, necesita uno o más campos con el rol establecido en Input
. Los campos con el rol establecido en Target
, Both
o None
se ignoran, al igual que los campos no numéricos.
Puntos fuertes. Los análisis factorial y PCA pueden reducir de forma eficaz la complejidad de los datos sin llegar a sacrificar una parte sustancial del contenido de información. Estas técnicas pueden ayudarle a crear modelos más robustos que realicen ejecuciones de forma más rápida que con los campos de entrada iniciales.