noeud Equilibrer
Le noeud Equilibrer permet de corriger les déséquilibres dans les jeux de données, de sorte que ceux-ci soient conformes aux critères de test spécifiés.
Par exemple, supposons qu'un jeu de données ait seulement deux valeurs --low
ou high
-- et que 90% des observations soient low
alors que seulement 10% des observations sont high
. De nombreuses techniques de modélisation ne parviennent pas à gérer ce type de données biaisées car elles ont tendance à ne retenir que la valeur faible et à ignorer la valeur élevée, qui est plus rare. Si les données sont bien équilibrées avec des nombres approximativement égaux de résultats low
et high
, les modèles auront de meilleures chances de trouver des motifs qui distinguent les deux groupes. Dans ce cas, vous pouvez utiliser un noeud Equilibrer pour créer une directive qui diminue le nombre d'observations de la valeur faible.
L'équilibrage est obtenu en dupliquant et en supprimant des enregistrements en fonction de conditions spécifiées. Les enregistrements pour lesquels aucune condition n'est vérifiée sont toujours ignorés. Dans la mesure où ce processus implique la duplication et/ou l'exclusion d'enregistrements, la séquence d'origine de vos données est perdue au cours d'opérations effectuées en aval. Veillez à calculer toutes les valeurs dépendant directement de la séquence de vos données avant d'ajouter un noeud Equilibrer au flux de données.