Balancierungsknoten
Mithilfe von Balancierungsknoten können Sie Unausgewogenheiten in den Datasets korrigieren, sodass sie den angegebenen Testkriterien entsprechen.
Angenommen, ein Dataset enthält nur zwei Werte-low
oder high
-und 90% der Fälle sind low
, während nur 10% der Fälle high
sind. Bei vielen Modellierungsverfahren gibt es Schwierigkeiten mit solchen verzerrten Daten, weil sie in der Regel nur die niedrigen Ergebnisse berücksichtigen und die hohen ignorieren, da diese seltener sind. Wenn die Daten mit ungefähr gleicher Anzahl von low
-und high
-Ergebnissen gut ausgeglichen sind, haben Modelle eine bessere Chance, Muster zu finden, die die beiden Gruppen unterscheiden. In diesem Fall kann mit einem Balancierungsknoten eine Balancierungsanweisung erstellt werden, die die Anzahl der Fälle mit dem Ergebnis vom Typ niedrig reduziert.
Die Balancierung erfolgt durch das Duplizieren und anschließende Verwerfen von Datensätzen auf der Grundlage der von Ihnen angegebenen Bedingungen. Datensätze, für die keine Bedingung gilt, werden immer übergeben. Da dieser Vorgang auf der Duplizierung und/oder dem Verwerfen von Datensätzen beruht, kann die ursprüngliche Sequenz Ihrer Daten in den nachgeordneten Operationen nicht erhalten bleiben. Daher müssen Sie alle sequenzbezogenen Werte ableiten, bevor Sie einen Balancierungsknoten zum Datenstream hinzufügen.