機械翻訳トピック英語版に切り替えることができます。

この資料の最も正確で最新のバージョンについては、英語 (オリジナル) バージョンを参照してください。 IBM は、自動 (機械) 翻訳されたコンテンツの使用による損害または損失に対して責任を負いません。

AutoAI エクスペリメントでのデータ・インピュテーション

最終更新: 2024年10月07日

データ・インピュテーションは、データ・セット内の欠損値を置換値で置換する手段です。代入を有効にすると、データ内で欠損値をどのように補間するかを指定できます。

実験タイプによるインピュテーション

代入方法は、作成する実験のタイプによって異なります。

分類および回帰では、カテゴリー・インピュテーションおよび数値インピュテーションの方法を構成できます。
時系列の問題の場合は、数値列に適用する代入方法のセットから選択できます。エクスペリメントを実行すると、セットの中で最もパフォーマンスの高いメソッドが自動的に適用されます。特定の値を置換値として指定することもできます。

インピュテーション・オプションを表示および設定するには：

エクスペリメントを構成するときに エクスペリメント設定 をクリックしてください。
データ・ソース オプションをクリックしてください。
データ・インピュテーションを有効にするをクリックしてください。データ・インピュテーションを明示的に有効にしていないが、データ・ソースに欠損値がある場合、AutoAI は警告を出し、デフォルトのインピュテーション方法を適用することに注意してください。インピュテーションの詳細を参照してください。
「インピュテーション」セクションのオプションを選択してください。
オプションで、データ列で受け入れ可能なインピュテーションのパーセンテージのしきい値を設定します。欠落値のパーセンテージが指定されたしきい値を超えると、エクスペリメントは失敗します。解決するには、データ・ソースを更新するか、しきい値を調整します。

2 項分類、複数クラス分類、または回帰実験で欠損データをインピュテーションするには、以下のいずれかの方法を選択します。テキスト・ベース (カテゴリー) データの値を入力する方法と、数値データの値を入力する方法があることに注意してください。

方法	説明
最多頻度	欠落している値を、列内で最も頻繁に出現する値に置き換えます。
中央値	ソートされた列の中央にある値で欠落値を置き換えます。
平均値	欠落値を列の平均値に置き換えます。

これらの方法の一部またはすべてを選択します。複数のメソッドを選択すると、最もパフォーマンスの高いメソッドがテストに自動的に適用されます。

注: 日付または時刻の値の代入はサポートされていません。

方法	説明
キュービック	pandas/scipy 法を使用して欠損値を埋めることにより、3 次補間を使用します。
埋め込み	欠落値を指定した数値に置き換えるには、タイプとして値を選択してください。
イテレーションのフラット化	まずデータがフラット化され、次に Scikit-learn 反復代入が適用されて、欠損値が検出されます。
線型	欠損値を埋めるには、pandas/scipy メソッドを使用して線形補間を使用します。
次へ	欠落値を次の値に置き換えます。
前へ	欠落値を前の値に置き換えます。