Nodo Bilanciamento
È possibile utilizzare i nodi bilanciamento per correggere squilibri negli insiemi di dati affinché soddisfino i criteri di test specificati.
Ad esempio, si supponga che un dataset abbia solo due valori --low
o high
-- e che il 90% dei casi sia low
mentre solo il 10% dei casi è high
. Molte tecniche di modellazione utilizzeranno dati distorti di questo tipo in modo non corretto, infatti tenderanno ad apprendere solo i risultati con valore basso e ignorare i risultati con valore alto, dal momento che risulta più raro. Se i dati sono ben bilanciati con un numero approssimativamente uguale di risultati low
e high
, i modelli avranno maggiori possibilità di trovare modelli che distinguano i due gruppi. In questo caso, è possibile utilizzare un nodo bilanciamento per creare una direttiva di bilanciamento in grado di ridurre i casi contenenti un risultato con valore basso.
Il bilanciamento viene eseguito tramite la duplicazione e il successivo scarto di record in base alle condizioni specificate. I record che non soddisfano alcuna condizione vengono passati nel flusso. Dal momento che questo processo funziona tramite duplicazione e/o scarto di record, la sequenza originale dei dati viene persa nelle operazioni downstream. Pertanto, prima di aggiungere un nodo bilanciamento allo stream di dati è necessario assicurarsi che ogni valore correlato alla sequenza venga derivato.