noeud échantillon
Vous pouvez utiliser des noeuds Echantillonner pour sélectionner un sous-groupe d'enregistrements à analyser ou définir une proportion d'enregistrements à supprimer. Divers types d'échantillon sont pris en charge, y compris les échantillons stratifiés, en cluster et non aléatoires (structurés).
Vous pouvez utiliser l'échantillonnage à diverses fins :
- Pour améliorer les performances en évaluant les modèles d'un sous-groupe de données. Les modèles qui sont estimés à partir d'un échantillon sont souvent aussi précis que les modèles dérivés de l'ensemble de données complet. Et ils peuvent être encore plus précis si vous pouvez utiliser les performances améliorées pour expérimenter plus de méthodes que vous ne pourriez essayer autrement.
- Pour sélectionner des groupes d'enregistrements ou de transactions associés à analyser, tels que tous les articles d'un panier en ligne ou toutes les propriétés d'un voisinage donné.
- Pour identifier des unités ou des observations pour une vérification aléatoire pour le contrôle de qualité, la prévention des fraudes ou la sécurité.
Types d'échantillons
Echantillons en cluster. Echantillonnent des groupes ou des clusters et non des unités individuelles. Supposons que vous disposiez d'un fichier de données comportant un enregistrement pour chaque élève. Si vous effectuez un regroupement par école et que la taille de l'échantillon est de 50%, 50% des écoles sont choisies et tous les élèves de chacune des écoles sélectionnées sont sélectionnés. Les élèves des autres écoles sont ignorés. En moyenne, on s'attendrait à ce qu'environ 50% des élèves soient choisis, mais parce que les écoles varient en taille, le pourcentage pourrait ne pas être exact. De même, vous pouvez classer les articles d'un panier en fonction de l'ID de la transaction pour pouvoir conserver tous les articles des transactions sélectionnées.
Echantillons stratifiés. Sélectionnent les échantillons indépendamment dans des sous-groupes sans chevauchement de population, ou strates. Vous pouvez, par exemple, faire en sorte que tous les hommes et femmes soient échantillonnés dans des proportions égales ou que chaque région ou groupe socio-économique d'une population soient représentés. Vous pouvez également spécifier une taille d'échantillon différente pour chaque strate (par exemple, si vous pensez qu'un groupe est sous-représenté dans les données d'origine).
Echantillonnage systématique ou 1 en n Lorsque la sélection aléatoire est difficile à obtenir, vous pouvez échantillonner les unités de manière systématique (à une fréquence fixe) ou de manière séquentielle.
Pondérations d'échantillonnage. Des pondérations d'échantillonnage sont calculées automatiquement lors de la création du graphique d'un échantillon complexe et elles correspondent approximativement à "l'effectif" que chaque unité échantillonnée représente dans les données d'origine. Par conséquent, la somme des pondérations sur l'échantillon doit évaluer la taille des données d'origine.
Cadre d'échantillonnage
Un cadre d'échantillonnage définit la source des observations potentielles à inclure dans un échantillon ou une étude. Parfois, il est possible d'identifier chaque membre d'une population et d'inclure l'un d'entre eux dans un échantillon, par exemple, lors de l'échantillonnage d'éléments qui proviennent d'une chaîne de production. Plus souvent, vous ne pouvez pas accéder à tous les cas possibles. Par exemple, vous ne pouvez pas être sûr de savoir qui votera lors d'une élection tant que l'élection n'aura pas eu lieu. Dans ce cas, vous pouvez utiliser le registre électoral comme cadre d'échantillonnage même si certaines personnes inscrites ne voteront pas. Et certaines personnes peuvent voter bien qu'elles n'aient pas été inscrites au moment où vous avez vérifié le registre. Toute personne ne figurant pas dans le cadre d'échantillonnage ne peut pas être échantillonnée. La représentation de la population à évaluer par le cadre d'échantillonnage doit être traitée pour chaque observation réelle.