データ・マイニングの問題には、入力として使用される可能性のある、数百または数千のフィールドが関わっていることがあります。 その結果、どのフィールドまたは変数をモデルに含めるかについて、かなりの時間と労力を費やすことになります。 選択項目を絞り込むため、特定の分析に最も重要なフィールドを識別するために、機能の選択アルゴリズムが使用されます。 例えば、いくつかの要因に基づいて患者の結果を予測しようとする場合、最も重要な要因はどれですか?
機能の選択は、以下の 3 つのステップがあります。
- スクリーニング : 重要でない、問題のある入力やレコードを削除します。または欠損値が多すぎる、または役立つ変動が多すぎたり、少なすぎたりする場合を削除します。
- 順位化。 残りの入力をソートし、重要度に基づいてランクを割り当てます。
- 選択: 後続のモデルで使用する機能のサブセットを識別します。例えば、最も重要な入力とフィルタリングのみを保存するか、他のすべてのユーザーを除外することによって使用します。
多くの組織があまりにも多くのデータをオーバーロードしている時代では、モデリング・プロセスを簡素化して高速にする機能の選択の利点は、重要になってくるかもしれません。 最も重要なフィールドに注意を集中させることにより、必要な計算量を減らすことができます。より簡単に、見過ごされる可能性のある小さいが重要な関係を見つけることができます。そして、最終的には、より単純で、より正確で、より簡単に説明可能なモデルを入手できます。 モデル内で使用されるフィールドの数を減らすことにより、将来繰り返し収集されるデータの量だけでなく、スコアリング回数を減らすことができることがあります。
例。 電話会社には、会社の顧客 5,000 人の特別プロモーションへの回答に関する情報を含むデータのウェアハウスがあります。 このデータには、顧客の年齢、雇用、所得、および電話使用の統計を含む多数のフィールドが含まれています。 3 つのターゲット・フィールドは、 3 つのオファーに対して顧客が応答したかどうかを示します。 会社は、このデータを使用して、将来の同様のオファーに最も反応しそうな顧客を予測しようと考えています。
要件。 単一の対象フィールド (役割が Target
に設定されているフィールド) と、対象に対して相対的にスクリーニングまたはランク付けする複数の入力フィールド。 対象フィールドと入力フィールドの両方に、 Continuous
(数値範囲) または Categorical
の尺度を設定できます。