0 / 0
資料の 英語版 に戻る
AutoAI エクスペリメントでのデータ・インピュテーション
最終更新: 2024年10月04日
AutoAI エクスペリメントでのデータ・インピュテーション

データ・インピュテーションは、データ・セット内の欠損値を置換値で置換する手段です。 代入を有効にすると、データ内で欠損値をどのように補間するかを指定できます。

実験タイプによるインピュテーション

代入方法は、作成する実験のタイプによって異なります。

  • 分類および回帰では、カテゴリー・インピュテーションおよび数値インピュテーションの方法を構成できます。
  • 時系列の問題の場合は、数値列に適用する代入方法のセットから選択できます。 エクスペリメントを実行すると、セットの中で最もパフォーマンスの高いメソッドが自動的に適用されます。 特定の値を置換値として指定することもできます。

インピュテーションの有効化

インピュテーション・オプションを表示および設定するには:

  1. エクスペリメントを構成するときに エクスペリメント設定 をクリックしてください。
  2. データ・ソース オプションをクリックしてください。
  3. データ・インピュテーションを有効にするをクリックしてください。 データ・インピュテーションを明示的に有効にしていないが、データ・ソースに欠損値がある場合、AutoAI は警告を出し、デフォルトのインピュテーション方法を適用することに注意してください。 インピュテーションの詳細を参照してください。
  4. 「インピュテーション」セクションのオプションを選択してください。
  5. オプションで、データ列で受け入れ可能なインピュテーションのパーセンテージのしきい値を設定します。 欠落値のパーセンテージが指定されたしきい値を超えると、エクスペリメントは失敗します。 解決するには、データ・ソースを更新するか、しきい値を調整します。

分類および回帰の実験のためのインピュテーションの構成

2 項分類、複数クラス分類、または回帰実験で欠損データをインピュテーションするには、以下のいずれかの方法を選択します。 テキスト・ベース (カテゴリー) データの値を入力する方法と、数値データの値を入力する方法があることに注意してください。

メソッド 説明
最多頻度 欠落している値を、列内で最も頻繁に出現する値に置き換えます。
中央値 ソートされた列の中央にある値で欠落値を置き換えます。
平均値(M) 欠落値を列の平均値に置き換えます。

時系列実験のためのインピュテーションの構成

これらの方法の一部またはすべてを選択します。 複数のメソッドを選択すると、最もパフォーマンスの高いメソッドがテストに自動的に適用されます。

注: 日付または時刻の値の代入はサポートされていません。
メソッド 説明
キュービック pandas/scipy 法を使用して欠損値を埋めることにより、3 次補間を使用します。
入力 欠落値を指定した数値に置き換えるには、タイプとして を選択してください。
イテレーションのフラット化 まずデータがフラット化され、次に Scikit-learn 反復代入が適用されて、欠損値が検出されます。
線形 欠損値を埋めるには、pandas/scipy メソッドを使用して線形補間を使用します。
次へ 欠落値を次の値に置き換えます。
前へ 欠落値を前の値に置き換えます。

今後のステップ

時系列実験のデータ代入実装の詳細

親トピック: AutoAI の概要

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細