Los nodos Partición se utilizan para generar un campo de partición que divide los datos en subconjuntos o muestras independientes para las fases de entrenamiento, comprobación y validación en la generación del modelo. Si usa una muestra para generar el modelo y otra muestra distinta para probarlo, podrá obtener una buena indicación de la bondad del modelo a la hora de generalizarlo a conjuntos de datos de mayor tamaño similares a los datos actuales.
El nodo Partición genera un campo nominal con el rol definido a Partición. Si lo prefiere, en el caso de que un campo adecuado ya exista en los datos, puede designarse como una partición utilizando un nodo Tipo. En este caso no se requiere ningún nodo Partición independiente. Se puede utilizar como partición cualquier campo nominal instanciado con dos o tres valores, pero no los campos con marcas.
En un flujo se pueden definir múltiples campos de partición pero, de hacerlo, será necesario seleccionar un solo campo de partición en cada nodo de modelado que utilice la partición. (Si solamente hay una partición, se usará automáticamente siempre que se active la partición.)
Para crear un campo de partición en función de algún otro criterio como un rango de fechas o una ubicación, también puede utilizar un nodo Derivar. Consulte Nodo Derivar para obtener más información.
Ejemplo. Cuando genere un flujo de RFM para identificar clientes recientes que han respondido de forma positiva a campañas de marketing anteriores, el departamento de marketing de una empresa de ventas utiliza un nodo Partición para dividir los datos en particiones de prueba y entrenamiento.