0 / 0
Go back to the English version of the documentation
Imputacja danych w eksperymentach AutoAI
Last updated: 25 sie 2023
Imputacja danych w eksperymentach AutoAI

Imputacja danych to sposób zastępowania braków danych w zestawie danych z podstawianą wartością. W przypadku włączenia imputacji można określić sposób, w jaki brakujące wartości są interpolowane w danych.

Imputacja według typu eksperymentu

Metody imputacji zależą od typu eksperymentu, który buduje.

  • W przypadku klasyfikacji i regresji można skonfigurować metody imputacji jakościowej i numerycznej.
  • W przypadku problemów z terminami czasowymi można wybrać z zestawu metod podstawiania, które mają być stosowane do kolumn liczbowych. Po uruchomieniu eksperymentu najlepsza metoda wykonania z zestawu jest stosowana automatycznie. Można również określić konkretną wartość jako wartość zastępczą.

Włączanie imputacji

Aby wyświetlić i ustawić opcje imputacji:

  1. Kliknij opcję Ustawienia eksperymentu podczas konfigurowania eksperymentu.
  2. Kliknij opcję Źródło danych .
  3. Kliknij opcję Włącz imputację danych. Należy zwrócić uwagę, że jeśli imputacja danych nie zostanie jawnie włączona, ale w źródle danych brakuje wartości, funkcja AutoAI ostrzega użytkownika i zastosuje domyślne metody imputacji. Patrz szczegóły imputacji.
  4. Wybierz opcje w sekcji Imputacja.
  5. Opcjonalnie ustaw wartość progową dla procentu podstawienia akceptowalnego dla kolumny danych. Jeśli procent brakujących wartości przekroczy określony próg, eksperyment nie powiedzie się. Aby rozwiązać problem, zaktualizuj źródło danych lub dopasuj próg.

Konfigurowanie imputacji dla eksperymentów klasyfikacyjnych i regresyjnych

Należy wybrać jedną z tych metod w celu podstawienia brakujących danych w klasyfikacji binarnej, klasyfikacji wieloklasowej lub eksperymentach regresji. Należy pamiętać, że można zastosować jedną metodę wypełniania wartości dla danych tekstowych (jakościowych), a drugą dla danych liczbowych.

Metoda Opis
Najczęstsza kategoria Zastąp brakującą wartość tą wartością, która pojawia się najczęściej w kolumnie.
Mediana Zastąp brakującą wartość tą wartością w środku posortowanej kolumny.
Średnia Zastąp brakującą wartość średnią wartością kolumny.

Konfigurowanie imputacji dla eksperymentów z czasoprzystaniami

Wybierz niektóre lub wszystkie z tych metod. Jeśli wybrano wiele metod, metoda najlepiej wykonującego działania jest automatycznie stosowana do eksperymentu.

Uwaga: Imputacja nie jest obsługiwana dla wartości daty i godziny.
Metoda Opis
Sześcienna Używa interpolacji sześciennej za pomocą metody pandas/scipy w celu wypełnienia brakujących wartości.
Wypełnienie Wybierz wartość jako typ, który ma zastąpić brakujące wartości numeryczną wartością określoną przez użytkownika.
Płaska iteracja Dane są najpierw spłaszczone, a następnie Scikit-naucz się iteracyjnego imputer jest stosowany w celu znalezienia brakujących wartości.
Liniowy Użyj interpolacji liniowej za pomocą metody pandas/scipy, aby wypełnić brakujące wartości.
Dalej Zastąp brakującą wartość następną wartością.
Wstecz Zastąp brakującą wartość poprzednią wartością.

Następne kroki

Szczegóły implementacji imputacji danych dla eksperymentów serii czasowych

Temat nadrzędny: PrzeglądAutoAI

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more