0 / 0
資料の 英語版 に戻る
値が欠落しているフィールドの処理
最終更新: 2024年10月04日
値が欠落しているフィールドの処理 (SPSS Modeler)

欠損値の大部分が少数のフィールドに集中している場合は、レコード レベルではなくフィールド レベルで欠損値に対処することができます。 この方法では、欠損値の処理方法を決める前に、特定のフィールドの相対重要度を調べることがもできます。 フィールドがモデル作成において重要ではない場合、欠損値の過多に関わらず、そのフィールドを保持する価値はないと思われます。

例えば、マーケットリサーチ会社がデータの収集に 50 の質問から成る一般的なアンケートを使用する場合を考えてみましょう。 そのうちの 2 つの質問は年齢と政治信条に関するもので、これは多くの人が提供をためらう情報です。 この場合、 AgePolitical_persuasion には多数の欠損値があります。

フィールドの尺度

どの方法を使用するかを決める際には、欠損値のあるフィールドの尺度も考慮する必要があります。

数値型フィールド: Continuousなどの数値フィールド・タイプの場合、数値フィールドにブランクが含まれていると多くのモデルが機能しないため、モデルを作成する前に常に非数値を除去する必要があります。

カテゴリー・フィールド: NominalFlagなどのカテゴリー・フィールドの場合、欠損値を変更する必要はありませんが、モデルの精度は向上します。 例えば、 Sex フィールドを使用するモデルは、 YZなどの意味のない値でも機能しますが、 M F 以外のすべての値を削除すると、モデルの精度が向上します。

スクリーニングまたは削除フィールド

あまりに多くの欠損値を含むフィールドのスクリーニングには、次のようなオプションがあります。

  • データ検査ノード を使用して、品質に基づいてフィールドをフィルターに掛けることができます。
  • 特徴量選択ノード を使用して、指定したパーセントを超える欠損値を持つフィールドをスクリーニングし、指定した対象に対する重要度に基づいてフィールドをランク付けすることができます。
  • フィールドを削除する代わりに、 データ型ノード を使用してフィールドの役割を 「なし」に設定できます。 これにより、フィールドはデータ・セット内に維持されますが、モデル作成プロセスからは除外されます。
生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細