Translation not up to date
The translation of this page does not represent the latest version. For the latest updates, see the English version of the documentation.
Last updated: 04 lip 2023
Węzeł Dobór predyktorów przegląda zmienne wejściowe do usunięcia w oparciu o zbiór kryteriów (takich jak procent braków danych); następnie nadaje rangę istotności pozostałych danych wejściowych względem określonej zmiennej przewidywanej. Na przykład, jeśli mamy zbiór danych z setkami potencjalnych danych wejściowych, to które z nich z dużym prawdopodobieństwem okażą się użyteczne w modelowaniu wyników leczenia pacjenta?
Przykład
node = stream.create("featureselection", "My node")
node.setPropertyValue("screen_single_category", True)
node.setPropertyValue("max_single_category", 95)
node.setPropertyValue("screen_missing_values", True)
node.setPropertyValue("max_missing_values", 80)
node.setPropertyValue("criteria", "Likelihood")
node.setPropertyValue("unimportant_below", 0.8)
node.setPropertyValue("important_above", 0.9)
node.setPropertyValue("important_label", "Check Me Out!")
node.setPropertyValue("selection_mode", "TopN")
node.setPropertyValue("top_n", 15)
Właściwości węzła featureselectionnode |
Wartości | Opis właściwości |
---|---|---|
target |
field (pole) | Modele Wybór predyktora określają rangi predyktorów względem określonej zmiennej przewidywanej. Zmienne wagi i częstości nie są używane. Więcej informacji na ten temat zawiera sekcja Właściwości wspólnego węzła modelowania . |
screen_single_category |
Flaga | Wartość True powoduje, że monitorowane są zmienne ze zbyt dużą liczbą rekordów należących do tej samej kategorii w odniesieniu do łącznej liczby rekordów. |
max_single_category |
Liczba | Określa próg używany, gdy screen_single_category ma wartość True . |
screen_missing_values |
Flaga | Wartość True powoduje, że monitorowane są zmienne ze zbyt dużą liczbą braków danych, wyrażoną jako procent łącznej liczby rekordów. |
max_missing_values |
Liczba | |
screen_num_categories |
Flaga | Wartość True powoduje, że monitorowane są zmienne ze zbyt dużą liczbą kategorii w odniesieniu do łącznej liczby rekordów. |
max_num_categories |
Liczba | |
screen_std_dev |
Flaga | Wartość True powoduje, że monitorowane są zmienne z odchyleniem standardowym nie większym od określonego minimum. |
min_std_dev |
Liczba | |
screen_coeff_of_var |
Flaga | Wartość True powoduje, że monitorowane są zmienne ze współczynnikiem zmienności nie większym od określonego minimum. |
min_coeff_of_var |
Liczba | |
criteria |
Pearson Likelihood CramersV Lambda |
Przy określaniu rankingu predyktorów jakościowych względem przewidywanej zmiennej jakościowej określa pomiar będący podstawą do wyznaczania ważności. |
unimportant_below |
Liczba | Określa progowe wartości p używane do nadawania zmiennym rangi ważnych, brzegowych i nieważnych. Przyjmuje wartości z zakresu od 0,0 do 1,0. |
important_above |
Liczba | Przyjmuje wartości z zakresu od 0,0 do 1,0. |
unimportant_label |
łańcuch | Określa etykietę rangi "nieważne". |
marginal_label |
łańcuch | |
important_label |
łańcuch | |
selection_mode |
ImportanceLevel ImportanceValue TopN |
|
select_important |
Flaga | Gdy selection_mode ma wartość ImportanceLevel , określa, czy wybierać zmienne ważne |
select_marginal |
Flaga | Gdy selection_mode ma wartość ImportanceLevel , określa, czy wybierać zmienne brzegowe. |
select_unimportant |
Flaga | Gdy selection_mode ma wartość ImportanceLevel , określa, czy wybierać zmienne nieważne. |
importance_value |
Liczba | Gdy selection_mode ma wartość ImportanceValue , określa wartość odcięcia, która ma być używana. Przyjmuje wartości z zakresu od 0 do 100. |
top_n |
liczba całkowita | Gdy selection_mode ma wartość TopN , określa wartość odcięcia, która ma być używana. Przyjmuje wartości z zakresu od 0 do 1000. |