資料の 英語版 に戻るAutoAI エクスペリメントでのデータ・インピュテーション
AutoAI エクスペリメントでのデータ・インピュテーション
最終更新: 2024年10月04日
データ・インピュテーションは、データ・セット内の欠損値を置換値で置換する手段です。 代入を有効にすると、データ内で欠損値をどのように補間するかを指定できます。
実験タイプによるインピュテーション
代入方法は、作成する実験のタイプによって異なります。
- 分類および回帰では、カテゴリー・インピュテーションおよび数値インピュテーションの方法を構成できます。
- 時系列の問題の場合は、数値列に適用する代入方法のセットから選択できます。 エクスペリメントを実行すると、セットの中で最もパフォーマンスの高いメソッドが自動的に適用されます。 特定の値を置換値として指定することもできます。
インピュテーションの有効化
インピュテーション・オプションを表示および設定するには:
- エクスペリメントを構成するときに エクスペリメント設定 をクリックしてください。
- データ・ソース オプションをクリックしてください。
- データ・インピュテーションを有効にするをクリックしてください。 データ・インピュテーションを明示的に有効にしていないが、データ・ソースに欠損値がある場合、AutoAI は警告を出し、デフォルトのインピュテーション方法を適用することに注意してください。 インピュテーションの詳細を参照してください。
- 「インピュテーション」セクションのオプションを選択してください。
- オプションで、データ列で受け入れ可能なインピュテーションのパーセンテージのしきい値を設定します。 欠落値のパーセンテージが指定されたしきい値を超えると、エクスペリメントは失敗します。 解決するには、データ・ソースを更新するか、しきい値を調整します。
分類および回帰の実験のためのインピュテーションの構成
2 項分類、複数クラス分類、または回帰実験で欠損データをインピュテーションするには、以下のいずれかの方法を選択します。 テキスト・ベース (カテゴリー) データの値を入力する方法と、数値データの値を入力する方法があることに注意してください。
メソッド | 説明 |
---|---|
最多頻度 | 欠落している値を、列内で最も頻繁に出現する値に置き換えます。 |
中央値 | ソートされた列の中央にある値で欠落値を置き換えます。 |
平均値(M) | 欠落値を列の平均値に置き換えます。 |
時系列実験のためのインピュテーションの構成
これらの方法の一部またはすべてを選択します。 複数のメソッドを選択すると、最もパフォーマンスの高いメソッドがテストに自動的に適用されます。
注: 日付または時刻の値の代入はサポートされていません。
メソッド | 説明 |
---|---|
キュービック | pandas/scipy 法を使用して欠損値を埋めることにより、3 次補間を使用します。 |
入力 | 欠落値を指定した数値に置き換えるには、タイプとして 値 を選択してください。 |
イテレーションのフラット化 | まずデータがフラット化され、次に Scikit-learn 反復代入が適用されて、欠損値が検出されます。 |
線形 | 欠損値を埋めるには、pandas/scipy メソッドを使用して線形補間を使用します。 |
次へ | 欠落値を次の値に置き換えます。 |
前へ | 欠落値を前の値に置き換えます。 |
今後のステップ
親トピック: AutoAI の概要