Proprietà randomtrees

Ultimo aggiornamento: 11 feb 2025
Proprietà randomtrees

Icona Nodo Random TreesIl nodo Random Trees è simile al nodo C & RT Tree; tuttavia, il nodo Random Trees è progettato per elaborare dati di grandi dimensioni per creare una singola struttura ad albero. Il nodo Random Trees genera una struttura ad albero delle decisioni che viene utilizzata per la previsione o la classificazione delle osservazioni future. Il metodo utilizza l'esecuzione ricorsiva di partizioni per suddividere i record di addestramento in segmenti riducendo l'impurità ad ogni passaggio. Un nodo della struttura ad albero è considerato puro quando il 100% dei casi nel nodo fa parte di una categoria specifica del campo obiettivo. I campi obiettivo e di input possono essere intervalli numerici o categoriali (nominali, ordinali o flag); tutte le suddivisioni sono binarie (solo due sottogruppi).

Tabella 1. proprietà randomtrees
randomtrees proprietà Valori Descrizione proprietà
target campo Nel nodo Random Trees, i modelli richiedono un singolo obiettivo ed uno o più campi di input. È inoltre possibile specificare un campo frequenza. Per ulteriori informazioni, consultare Proprietà comuni del nodo Modelli .
number_of_models intero Determina il numero di modelli da creare come parte della modellazione dell'insieme.
use_number_of_predictors indicatore Determina se viene utilizzato number_of_predictors.
number_of_predictors intero Specifica il numero di predittori da utilizzare quando si creano modelli di suddivisione.
use_stop_rule_for_accuracy indicatore Determina se la creazione del modello si arresta quando non è possibile migliorare la precisione.
sample_size numero Ridurre questo valore per migliorare le prestazioni durante l'elaborazione di dataset di grandi dimensioni.
handle_imbalanced_data indicatore Se l'obiettivo del modello è un particolare risultato di flag e il rapporto tra il risultato desiderato e un risultato non desiderato è molto piccolo, i dati non sono bilanciati e il campionamento di bootstrap condotto dal modello può influire sulla precisione del modello. Abilitare la gestione dei dati sbilanciati in modo che il modello catturerà una proporzione maggiore del risultato desiderato e potrà generare un modello più forte.
use_weighted_sampling indicatore Quando è impostata su False, le variabili per ciascun nodo vengono selezionate casualmente con la stessa probabilità. Quando è impostata su True, le variabili vengono ponderate e selezionate di conseguenza.
max_node_number intero Il numero massimo di nodi consentiti nelle singole strutture ad albero. Se il numero viene superato alla suddivisione successiva, l'accrescimento della struttura ad albero viene arrestato.
max_depth intero Profondità massima della struttura ad albero prima dell'arresto dell'accrescimento.
min_child_node_size intero Determina il numero minimo di record consentiti in un nodo figlio dopo la suddivisione del nodo padre. Se un nodo figlio contiene meno record di quelli qui specificati, il nodo padre non verrà suddiviso.
use_costs indicatore  
costs strutturato Proprietà strutturata. Il formato è un elenco di 3 valori: il valore effettivo, il valore previsto ed il costo nel caso di previsione errata. Ad esempio: tree.setPropertyValue("costs", [["drugA", "drugB", 3.0], ["drugX", "drugY", 4.0]])
default_cost_increase none linear square custom Notare che questa opzione è abilitata solo per gli obiettivi ordinali. Impostare i valori predefiniti nelle matrice costi.
max_pct_missing intero Se la percentuale di valori mancanti in un input è maggior del valore specificato in questo punto, l'input viene escluso. Minimo 0, massimo 100.
exclude_single_cat_pct intero Se un valore di categoria rappresenta una percentuale di record più alta rispetto a quanto specificato in questo punto, l'intero campo viene escluso dalla creazione del modello. Minimo 1, massimo 99.
max_category_number intero Se il numero di categorie in un campo supera questo valore, il campo viene escluso dalla creazione del modello. Minimo 2.
min_field_variation numero Se il coefficiente di variazione di un campo continuo è più piccolo di questo valore, il campo viene escluso dalla creazione del modello.
num_bins intero Utilizzata solo se i dati sono costituiti da input continui. Impostare il numero di bin di frequenza da utilizzare per gli input; le opzioni sono: 2, 4, 5, 10, 20, 25, 50 o 100.
topN intero Specifica il numero di regole da inserire nel report. Il valore predefinito è 50, con valore minimo 1 e valore massimo 1000.