自動数値ノードは、さまざまな方法を使用して 連続型数値範囲の結果についてモデルを推定および比較し、単一のモデル作成実行でさまざまな方法を試用することができます。 使用するアルゴリズムを選択し、複数の組み合わせのオプションを検証することができます。 例えば、最も良好なパフォーマンスを確認するニューラル・ネットワーク、線型、C&R Tree、CHAID モデルを使用して住宅価格を予測したり、ステップワイズ法、変数増加法、および変数減少法のさまざまな組み合わせを試すこともできます。 ノードは、オプションの可能なすべての組み合わせを検証し、指定する指標に基づいて候補モデルをランク付け、スコアリングまたは詳細分析のブランチに最適なモデルを保存します。
- 例
- 自治体は、固定資産税を正確に見積もり、すべての資産を調査することなく、 必要に応じて特定の資産の価格を調整したいと考えています。 自動数値ノードを使用して、アナリストは、建築の種類、近傍、大きさおよびその他の既知の要素に基づいて資産の価値を予測する多くのモデルを生成および比較することができます。
- 要件
- 1 つの対象フィールド (役割が出力)、少なくとも1 つの入力フィールド (役割が入力)。 対象フィールドは、年齢 または 収入 など、連続型 (数値範囲型) フィールドである必要があります。 入力フィールドは連続型またはカテゴリー型である場合があり、一部の入力が一部のモデル タイプに適切でないという制限があります。 例えば、C&R Tree モデルは入力値としてカテゴリー文字列フィールドを使用できますが、線型モデルではこのフィールドは使用できず、指定されていても無視されます。 用件は、個々のモデル作成ノードを使用する場合と同じです。 例えば、CHAID モデルは CHAID ノードを使用する場合も自動数値ノードを使用する場合も同じように動作します。
- 度数および重みフィールド
- それは、例えばユーザーが構築データセットは母集団のセクションを低く示すことを認識しているため、または 1 つのレコードが多くの同一ケースを示すためです。 度数フィールドは、C&R Tree および CHAID アルゴリズムによって使用できます。 重みフィールドは、C&R Tree、CHAID、回帰および GenLin アルゴリズムで使用することができます。 その他のモデル タイプでは、これらのフィールドを無視してモデルを構築します。 度数および重みフィールドはモデル作成にのみ使用され、モデルの評価またはスコアリングの場合は考慮されません。
- 接頭部
- 自動数値ノードのナゲットにテーブル・ノードを接続する場合は、名前が $ 接頭辞で始まるいくつかの新しい変数がテーブルに存在します。
サポートするモデル タイプ
サポートするモデル タイプは、ニューラル ネットワーク、C&R Tree、CHAID、回帰、GenLin、最近隣、SVM、XGBoost Linear、GLE、および XGBoost-AS です。
交差検証設定
ノード・プロパティーで、交差検証を設定することができます。 交差検証は、機械学習モデルの有効性をテストする (オーバーフィットを回避する) ための重要な手法です。また、データが制限されている場合に交差検証を再サンプリング手順として使用することにより、モデルを評価することができます。
- データ・セットをランダムにシャッフルする。
- データ・セットを複数の K 分割またはグループに分割する。
- それぞれの分割/グループで、以下の処理を実行する。
- 分割/グループをホールド・アウトまたはテスト・データ・セットとして扱う。
- 残りのグループをトレーニング・データ・セットとして扱う。
- トレーニング・セットにモデルを適合させ、テスト・セットでそのモデルを評価する。
- 評価スコアを保存してモデルを破棄する。
- 保存された K 分割評価スコアを使用して、モデルの全体的な評価を要約する。
現在、交差検証は、自動分類ノードと自動数値ノードで使用することができます。 ノードをダブルクリックすると、そのノードのプロパティーが表示されます。 「交差検証」オプションを選択すると、単一のトレーニング・パーティション/テスト・パーティションが無効になり、自動ノードで K 分割交差検証を使用して、選択された一連のアルゴリズムが検証されます。
「分割数」(K) の値を、3 から 10 までの範囲で指定することができます。デフォルト値は 5 です。 さまざまな検査の実行で生成された複数のモデルについて、最終的な評価測定値を一貫性のあるものにする目的で、交差検査の実行時に繰り返し可能サンプリングを保持する場合は、「反復可能交差検証データ区分の割り当て」オプションを選択します。 「ランダム・シード」を特定の値に設定し、正確に再現可能なモデルを生成することもできます。 ランダムな値を常に同じ順序で生成する場合は、「生成」をクリックします。この場合、ノードを実行すると常に同じモデルが生成されます。
継続的機械学習
モデル化で不都合なこととして、時間の経過とともにデータが変更されることが原因で、モデルが古くなることがあります。 これは一般的に、モデル・ドリフト や概念ドリフト と呼ばれます。 モデル・ドリフトを効果的に克服できるように、SPSS Modeler は継続的自動機械学習機能を備えています。 この機能は、自動分類ノードおよび自動数値ノード・モデル・ナゲットで使用可能です。 詳しくは、 継続的な機械学習を参照してください。