自動分類ノードは、さまざまな方法を使用して名義型 (セット型) または 2 値 (yes/no) の対象についてモデルを推定および比較し、単一のモデル作成実行でさまざまな方法を試用することができます。 使用するアルゴリズムを選択し、複数の組み合わせのオプションを検証することができます。 例えば、SVM に放射基底関数、多項式、Sigmoid、線型の各方法の中から 1 つ選ぶのではなく、そのすべてを試行できます。 ノードは、オプションの可能なすべての組み合わせを検証し、指定する指標に基づいて候補モデルをランク付け、スコアリングまたは詳細分析のブランチに最適なモデルを保存します。
- 例
- 小売業には、過去のキャンペーンで特定の顧客に行ったオファーを追跡する履歴データがあります。 この会社は、適切なオファーを各顧客にマッチングすることで、より収益性の高い結果を達成したいと考えています。
- 要件
- 測定の尺度が
Nominal
またはFlag
(役割が 「対象」に設定されている)、および少なくとも 1 つの入力フィールド (役割が 「入力」に設定されている) を持つ対象フィールド。 フラグ型フィールドの場合、対象フィールド向けに定義されたTrue
値は、プロフィット、リフト、および関連統計量の計算時のヒットを表現すると想定されます。 入力フィールドの測定レベルはContinuous
またはCategorical
ですが、一部の入力が一部のモデル・タイプに適していない場合があるという制限があります。 例えば、C&R Tree、CHAID、および QUEST モデルで入力として使用されている順序型フィールドには、(文字列ではなく) 数値型ストレージを含む必要があります。 数値型ストレージが含まれない場合は、これらのモデルに無視されます。同様に、連続型入力フィールドが分割される場合があります。 用件は、個別のモデル作成ノードを使用している場合と同じです。例えば、ベイズ・ネットワーク・モデルは、ベイズ・ノードから生成された場合も、自動分類ノードから生成された場合も同じように動作します。 - 度数および重みフィールド
- それは、例えばユーザーが構築データセットは母集団のセクションを低く示すことを認識しているため、または 1 つのレコードが多くの同一ケースを示すためです。 C&R Tree、CHAID、QUEST、ディシジョン・リスト、ベイズ・ネットワーク・モデルで度数フィールドを使用することができます。 重みフィールドは、C&R Tree、CHAID、および C5.0 で使用することができます。 その他のモデル タイプでは、これらのフィールドを無視してモデルを構築します。 度数および重みフィールドはモデル作成にのみ使用され、モデルの評価またはスコアリングの場合は考慮されません。
- 接頭部
- 自動分類ノードのナゲットにテーブル・ノードを接続する場合は、名前が $ 接頭辞で始まるいくつかの新しい変数がテーブルに存在します。
サポートするモデル タイプ
サポートするモデル タイプは、ニューラル ネットワーク、C&R Tree、QUEST、CHAID、C5.0、ロジスティック回帰、ディシジョン リスト、ベイズ ネットワーク、判別分析、最近隣、SVM、XGBoost Tree、および XGBoost-AS です。
交差検証設定
ノード・プロパティーで、交差検証を設定することができます。 交差検証は、機械学習モデルの有効性をテストする (オーバーフィットを回避する) ための重要な手法です。また、データが制限されている場合に交差検証を再サンプリング手順として使用することにより、モデルを評価することができます。
- データ・セットをランダムにシャッフルする。
- データ・セットを複数の K 分割またはグループに分割する。
- それぞれの分割/グループで、以下の処理を実行する。
- 分割/グループをホールド・アウトまたはテスト・データ・セットとして扱う。
- 残りのグループをトレーニング・データ・セットとして扱う。
- トレーニング・セットにモデルを適合させ、テスト・セットでそのモデルを評価する。
- 評価スコアを保存してモデルを破棄する。
- 保存された K 分割評価スコアを使用して、モデルの全体的な評価を要約する。
現在、交差検証は、自動分類ノードと自動数値ノードで使用することができます。 ノードをダブルクリックすると、そのノードのプロパティーが表示されます。 「交差検証」オプションを選択すると、単一のトレーニング・パーティション/テスト・パーティションが無効になり、自動ノードで K 分割交差検証を使用して、選択された一連のアルゴリズムが検証されます。
「分割数」(K) の値を、3 から 10 までの範囲で指定することができます。デフォルト値は 5 です。 さまざまな検査の実行で生成された複数のモデルについて、最終的な評価測定値を一貫性のあるものにする目的で、交差検査の実行時に繰り返し可能サンプリングを保持する場合は、「反復可能交差検証データ区分の割り当て」オプションを選択します。 「ランダム・シード」を特定の値に設定し、正確に再現可能なモデルを生成することもできます。 ランダムな値を常に同じ順序で生成する場合は、「生成」をクリックします。この場合、ノードを実行すると常に同じモデルが生成されます。
継続的機械学習
モデル化で不都合なこととして、時間の経過とともにデータが変更されることが原因で、モデルが古くなることがあります。 これは一般的に、モデル・ドリフト や概念ドリフト と呼ばれます。 モデル・ドリフトを効果的に克服できるように、SPSS Modeler は継続的自動機械学習機能を備えています。 この機能は、自動分類ノードおよび自動数値ノード・モデル・ナゲットで使用可能です。 詳しくは、 継続的な機械学習を参照してください。