0 / 0
Zurück zur englischen Version der Dokumentation

Stichprobenknoten

Letzte Aktualisierung: 12. Feb. 2025
Beispielknoten (SPSS Modeler)

Mithilfe von Stichprobenknoten können Sie ein Subset der Datensätze für die Analyse auswählen oder einen Anteil von Datensätzen auswählen, der verworfen werden soll. Es werden verschiedene Stichprobentypen unterstützt, einschließlich geschichtete, gruppierte und nicht zufällige (strukturierte) Stichproben.

Stichprobenziehungen können aus verschiedenen Gründen durchgeführt werden:

  • Zur Verbesserung der Leistung durch Schätzung von Modellen anhand eines Subsets der Daten. Modelle, die aus einer Stichprobe geschätzt werden, sind oft so genau wie Modelle, die aus dem vollständigen Dataset abgeleitet wurden. Und sie können noch genauer sein, wenn Sie die verbesserte Leistung verwenden können, um mit mehr Methoden zu experimentieren, als Sie sonst versuchen könnten.
  • Zur Auswahl von Gruppen verwandter Datensätze oder Transaktionen für die Analyse, beispielsweise alle Artikel in einem Online-Warenkorb oder alle Eigenschaften in einem bestimmten Umfeld.
  • Zur Ermittlung von Einheiten oder Fällen zur zufälligen Untersuchung im Rahmen von Qualitätssicherung, Betrugsprävention oder Sicherheitsmaßnahmen.
Hinweis: Wenn Sie die Daten einfach nur zum Zwecke der Validierung in eine Trainings- und eine Teststichprobe unterteilen möchten, kann stattdessen ein Partitionsknoten verwendet werden. Weitere Informationen finden Sie unter Partitionsknoten.

Stichprobentypen

Clusterstichproben. Hierbei werden Gruppen bzw. Cluster als Stichprobe gezogen, nicht einzelne Einheiten. Nehmen Sie beispielsweise an, Sie haben eine Datendatei mit einem Datensatz pro Schüler. Wenn Sie nach Schule gruppieren und der Stichprobenumfang 50% beträgt, werden 50% der Schulen ausgewählt und alle Schüler aus jeder der ausgewählten Schulen ausgewählt. Schüler in den anderen Schulen werden ignoriert. Im Durchschnitt würden Sie erwarten, dass etwa 50% der Schüler ausgewählt werden, aber da Schulen in der Größe variieren, ist der Prozentsatz möglicherweise nicht genau. Auf ähnliche Weise können Sie Artikel in einem Warenkorb nach Transaktions-ID zu Clustern zusammenfassen, um sicherzustellen, dass alle Artikel aus ausgewählten Transaktionen verwendet werden

Geschichtete Stichproben. Hierbei werden die Stichproben unabhängig innerhalb von sich nicht überschneidenden Untergruppen der Grundgesamtheit, den sogenannten Schichten, ausgewählt. So können Sie beispielsweise sicherstellen, dass Männer und Frauen zu gleichen Anteilen ausgewählt werden oder dass jede Region oder sozioökonomische Gruppe innerhalb der Einwohner einer Stadt dargestellt wird. Sie können auch für jede Schicht einen anderen Stichprobenumfang angeben (z. B. wenn Sie denken, dass eine Gruppe in den ursprünglichen Daten unterrepräsentiert ist).

Systematische Stichprobenziehung (Stichprobenziehung vom Typ "1 in n"). Wenn eine zufällige Auswahl schwer zu erzielen ist, können die Stichprobeneinheiten systematisch (in festgelegten Intervallen) oder sequenziell gezogen werden.

Stichprobengewichtungen. Stichprobengewichtungen werden beim Ziehen einer komplexen Stichprobe automatisch berechnet und entsprechen ungefähr der "Häufigkeit" der einzelnen gezogenen Einheiten in den ursprünglichen Daten. Daher sollte die Summe der Gewichtungen in der gesamten Stichprobe eine Schätzung des Umfangs der ursprünglichen Daten darstellen.

Stichprobenrahmen

Ein Stichprobenrahmen definiert die potenzielle Quelle der in eine Stichprobe oder Studie aufzunehmenden Fälle. Manchmal ist es möglich, jedes Mitglied einer Population zu identifizieren und eines davon in eine Stichprobe einzuschließen, z. B. bei der Stichprobenentnahme von Elementen, die aus einer Produktionslinie stammen. Häufiger sind Sie nicht in der Lage, auf jeden möglichen Fall zuzugreifen. Sie können beispielsweise nicht sicher sein, wer in einer Wahl abstimmen wird, bis die Wahl stattfindet. In diesem Fall könnten Sie das Wahlregister als Stichprobenrahmen verwenden, auch wenn einige registrierte Personen nicht abstimmen. Und einige Leute könnten stimmen, obwohl sie nicht aufgeführt wurden, als Sie das Register überprüft haben. Personen, die sich nicht im Stichprobenrahmen befinden, können auch nicht in die Stichprobe aufgenommen werden. Ob Ihr Stichprobenrahmen hinsichtlich seiner Natur hinreichend große Ähnlichkeit mit der Grundgesamtheit aufweist, die Sie evaluieren möchten, ist eine Frage, die für jeden realen Fall gesondert zu untersuchen ist.