Translation not up to date
Imputacja danych to sposób zastępowania braków danych w zestawie danych z podstawianą wartością. W przypadku włączenia imputacji można określić sposób, w jaki brakujące wartości są interpolowane w danych.
Imputacja według typu eksperymentu
Metody imputacji zależą od typu eksperymentu, który buduje.
- W przypadku klasyfikacji i regresji można skonfigurować metody imputacji jakościowej i numerycznej.
- W przypadku problemów z terminami czasowymi można wybrać z zestawu metod podstawiania, które mają być stosowane do kolumn liczbowych. Po uruchomieniu eksperymentu najlepsza metoda wykonania z zestawu jest stosowana automatycznie. Można również określić konkretną wartość jako wartość zastępczą.
Włączanie imputacji
Aby wyświetlić i ustawić opcje imputacji:
- Kliknij opcję Ustawienia eksperymentu podczas konfigurowania eksperymentu.
- Kliknij opcję Źródło danych .
- Kliknij opcję Włącz imputację danych. Należy zwrócić uwagę, że jeśli imputacja danych nie zostanie jawnie włączona, ale w źródle danych brakuje wartości, funkcja AutoAI ostrzega użytkownika i zastosuje domyślne metody imputacji. Patrz szczegóły imputacji.
- Wybierz opcje w sekcji Imputacja.
- Opcjonalnie ustaw wartość progową dla procentu podstawienia akceptowalnego dla kolumny danych. Jeśli procent brakujących wartości przekroczy określony próg, eksperyment nie powiedzie się. Aby rozwiązać problem, zaktualizuj źródło danych lub dopasuj próg.
Konfigurowanie imputacji dla eksperymentów klasyfikacyjnych i regresyjnych
Należy wybrać jedną z tych metod w celu podstawienia brakujących danych w klasyfikacji binarnej, klasyfikacji wieloklasowej lub eksperymentach regresji. Należy pamiętać, że można zastosować jedną metodę wypełniania wartości dla danych tekstowych (jakościowych), a drugą dla danych liczbowych.
Metoda | Opis |
---|---|
Najczęstsza kategoria | Zastąp brakującą wartość tą wartością, która pojawia się najczęściej w kolumnie. |
Mediana | Zastąp brakującą wartość tą wartością w środku posortowanej kolumny. |
Średnia | Zastąp brakującą wartość średnią wartością kolumny. |
Konfigurowanie imputacji dla eksperymentów z czasoprzystaniami
Wybierz niektóre lub wszystkie z tych metod. Jeśli wybrano wiele metod, metoda najlepiej wykonującego działania jest automatycznie stosowana do eksperymentu.
Metoda | Opis |
---|---|
Sześcienna | Używa interpolacji sześciennej za pomocą metody pandas/scipy w celu wypełnienia brakujących wartości. |
Wypełnienie | Wybierz wartość jako typ, który ma zastąpić brakujące wartości numeryczną wartością określoną przez użytkownika. |
Płaska iteracja | Dane są najpierw spłaszczone, a następnie Scikit-naucz się iteracyjnego imputer jest stosowany w celu znalezienia brakujących wartości. |
Liniowy | Użyj interpolacji liniowej za pomocą metody pandas/scipy, aby wypełnić brakujące wartości. |
Dalej | Zastąp brakującą wartość następną wartością. |
Wstecz | Zastąp brakującą wartość poprzednią wartością. |
Następne kroki
Szczegóły implementacji imputacji danych dla eksperymentów serii czasowych
Temat nadrzędny: PrzeglądAutoAI