Retourner à la version anglaise de la documentationpropriétés de binningnode
propriétés de binningnode
Dernière mise à jour : 07 oct. 2024
Le noeud Discrétiser crée automatiquement des champs nominaux (ensemble) sur la base des valeurs d'un ou de plusieurs champs continus (intervalle numérique) existants. Par exemple, vous pouvez transformer un champ continu de revenus en un nouveau champ catégoriel contenant des groupes de revenus comme écarts par rapport à la moyenne. Après avoir créé des casiers pour le nouveau champ, vous pouvez générer un noeud Calculer en fonction des points de césure.
Exemple
node = stream.create("binning", "My node")
node.setPropertyValue("fields", ["Na", "K"])
node.setPropertyValue("method", "Rank")
node.setPropertyValue("fixed_width_name_extension", "_binned")
node.setPropertyValue("fixed_width_add_as", "Suffix")
node.setPropertyValue("fixed_bin_method", "Count")
node.setPropertyValue("fixed_bin_count", 10)
node.setPropertyValue("fixed_bin_width", 3.5)
node.setPropertyValue("tile10", True)
binningnode propriétés |
Type de données | Description de la propriété |
---|---|---|
fields |
[field1 field2 ... champN] | Champs continus (intervalle numérique) en attente de transformation. Vous pouvez créer des intervalles pour plusieurs champs simultanément. |
method |
FixedWidth EqualCount Rank SDev Optimal |
Méthode utilisée pour déterminer les points de césure des nouveaux intervalles de champ (catégories). |
recalculate_bins |
Always IfNecessary |
Indique si les intervalles sont recalculés et les données placées dans l'intervalle approprié à chaque exécution du noeud ou si les données sont uniquement ajoutées aux intervalles existants et aux nouveaux intervalles éventuellement ajoutés. |
fixed_width_name_extension |
chaîne | L'extension par défaut est _BIN. |
fixed_width_add_as |
Suffix Prefix |
Indique si l'extension est ajoutée à la fin (suffixe) ou au début (préfixe) du nom du champ. L'extension par défaut est income_BIN. |
fixed_bin_method |
Width Count |
|
fixed_bin_count |
Integer | Désigne l'entier déterminant le nombre d'intervalles de largeur fixe (catégories) des nouveaux champs. |
fixed_bin_width |
real | Valeur (entier ou réel) permettant de calculer la largeur de l'intervalle. |
equal_count_name_ extension |
chaîne | L'extension par défaut est _TILE. |
equal_count_add_as |
Suffix Prefix |
Indique une extension, suffixe ou préfixe, utilisée pour le nom de champ généré à l'aide de centiles standard. L'extension par défaut est _TILE plus N, N étant le numéro du quantile. |
tile4 |
option | Génère quatre intervalles de quintile, chacun contenant 25 % des observations. |
tile5 |
option | Génère cinq intervalles de quintiles. |
tile10 |
option | Génère 10 intervalles de déciles. |
tile20 |
option | Génère 20 intervalles de vingtiles. |
tile100 |
option | Génère 100 intervalles de centiles. |
use_custom_tile |
option | |
custom_tile_name_extension |
chaîne | L'extension par défaut est _TILEN. |
custom_tile_add_as |
Suffix Prefix |
|
custom_tile |
Integer | |
equal_count_method |
RecordCount ValueSum |
La méthode RecordCount tente d'affecter un nombre égal d'enregistrements à chaque casier, tandis que ValueSum affecte des enregistrements de sorte que la somme des valeurs de chaque casier soit égale. |
tied_values_method |
Next Current Random |
Spécifie l'intervalle dans lequel les données de valeur ex æquo doivent être placées. |
rank_order |
Ascending Descending |
Cette propriété inclut Ascending (la valeur la plus faible est marquée 1) ou Descending (la valeur la plus élevée est marquée 1). |
rank_add_as |
Suffix Prefix |
Cette option s'applique au rang, au rang fractionnaire et au rang de pourcentage. |
rank |
option | |
rank_name_extension |
chaîne | L'extension par défaut est _RANK. |
rank_fractional |
option | Permet de classer les observations dans lesquelles la valeur du nouveau champ équivaut au rang divisé par la somme des pondérations des observations non manquantes. Les rangs fractionnaires sont compris dans l'intervalle 0–1. |
rank_fractional_name_ extension |
chaîne | L'extension par défaut est _F_RANK. |
rank_pct |
option | Chaque rang est divisé par le nombre d'enregistrements avec valeurs valides et multiplié par 100. Les rangs fractionnaires de pourcentage sont compris dans l'intervalle 1–100. |
rank_pct_name_extension |
chaîne | L'extension par défaut est _P_RANK. |
sdev_name_extension |
chaîne | |
sdev_add_as |
Suffix Prefix |
|
sdev_count |
One Two Three |
|
optimal_name_extension |
chaîne | L'extension par défaut est _OPTIMAL. |
optimal_add_as |
Suffix Prefix |
|
optimal_supervisor_field |
Zone | Champ choisi comme champ de superviseur et auquel les champs sélectionnés pour la création d'intervalles sont associés. |
optimal_merge_bins |
option | Indique que tous les intervalles présentant peu d'observations seront ajoutés à un intervalle voisin plus grand. |
optimal_small_bin_threshold |
Integer | |
optimal_pre_bin |
option | Indique que la pré-création d'intervalles de l'ensemble de données va avoir lieu. |
optimal_max_bins |
Integer | Définit une limite supérieure afin d'éviter de créer un nombre d'intervalles trop important. |
optimal_lower_end_point |
Inclusive Exclusive |
|
optimal_first_bin |
Unbounded Bounded |
|
optimal_last_bin |
Unbounded Bounded |