場合によっては、数百または数千ものフィールドが入力フィールドとして使用される可能性があり、データ・マイニングの問題となります。 その結果、どのフィールドや変数をモデルに含むかを調べるのに、大変な時間と努力を費やすことになるかもしれません。 選択範囲を絞り込むために、特徴量選択アルゴリズムを使用して、所定の分析にとって最も重要なフィールドを識別することができます。 例えば、いくつかの要素に基づいて患者予後を予測する場合、どの要素が最も重要でしょう?
特徴量選択は、次の 3 つの段階から成り立っています。
- スクリーニング : 重要でなく問題を含んだ入力値とレコードまたはケースを削除します。例えば、欠損値が多すぎる入力フィールドや、使用するには変動が大きすぎたり小さすぎたりする入力フィールドです。
- 順位化。 重要性に基づいて、残った入力フィールドをソートしランクを割り当てます。
- 選択: 例えば、最も重要な入力だけを保持し、その他はすべてフィルタリングまたは除外することにより、機能のサブセットを特定して後続のモデルで使用します。
たくさんの組織があまりにも多くのデータを抱え込んでいる時代に、モデリング・プロセスを単純化し迅速化する過程で特徴量選択を行うことの利点は、少なくありません。 フィールドは最も重要な部分であるため、それに機敏に注意を集中することによって、必要な計算量を減らしたり、重要なことなのに小さくて見逃してしまいそうな人や物の関連を簡単に探し出したり、その結果として、単純かつ正確で説明が簡単なモデルを取得したりすることができます。 モデルで使用するフィールドの数を減らすことによって、将来、反復して収集するデータ量を減らしたり、スコアリングの回数を減らしたりすることができます。
例。 電話会社は、特別プロモーションに対するこの会社の 5,000 人の顧客からの応答に関する情報を含んでいるデータ・ウェアハウスを持っています。 このデータには、顧客の、雇用、収入、電話利用状況の統計などの多くのフィールドが含まれています。 3 つの対象フィールドは、顧客がこの 3 つのフィールドに反応したかどうかを示しています。 この会社は、このデータを活用して、今後、類似のオファーに対して反応する可能性が最も高い顧客を予測したいと考えています。
要件。 単一の対象フィールド (役割が Target
に設定されているフィールド) と、対象に対して相対的にスクリーニングまたはランク付けする複数の入力フィールド。 対象フィールドと入力フィールドの両方に、 Continuous
(数値範囲) または Categorical
の尺度を設定できます。