0 / 0
資料の 英語版 に戻る
自動分類ノード
最終更新: 2024年11月22日
自動分類ノード (SPSS Modeler)

自動分類ノードは、さまざまな方法を使用して名義型 (セット型) または 2 値 (yes/no) の対象についてモデルを推定および比較し、単一のモデル作成実行でさまざまな方法を試用することができます。 使用するアルゴリズムを選択し、複数の組み合わせのオプションを検証することができます。 例えば、SVM に放射基底関数、多項式、Sigmoid、線型の各方法の中から 1 つ選ぶのではなく、そのすべてを試行できます。 ノードは、オプションの可能なすべての組み合わせを検証し、指定する指標に基づいて候補モデルをランク付け、スコアリングまたは詳細分析のブランチに最適なモデルを保存します。

小売業には、過去のキャンペーンで特定の顧客に行ったオファーを追跡する履歴データがあります。 この会社は、適切なオファーを各顧客にマッチングすることで、より収益性の高い結果を達成したいと考えています。
要件
測定の尺度が Nominal または Flag (役割が 「対象」に設定されている)、および少なくとも 1 つの入力フィールド (役割が 「入力」に設定されている) を持つ対象フィールド。 フラグ型フィールドの場合、対象フィールド向けに定義された True 値は、プロフィット、リフト、および関連統計量の計算時のヒットを表現すると想定されます。 入力フィールドの測定レベルは Continuous または Categoricalですが、一部の入力が一部のモデル・タイプに適していない場合があるという制限があります。 例えば、C&R Tree、CHAID、および QUEST モデルで入力として使用されている順序型フィールドには、(文字列ではなく) 数値型ストレージを含む必要があります。 数値型ストレージが含まれない場合は、これらのモデルに無視されます。同様に、連続型入力フィールドが分割される場合があります。 用件は、個別のモデル作成ノードを使用している場合と同じです。例えば、ベイズ・ネットワーク・モデルは、ベイズ・ノードから生成された場合も、自動分類ノードから生成された場合も同じように動作します。
度数および重みフィールド
それは、例えばユーザーが構築データセットは母集団のセクションを低く示すことを認識しているため、または 1 つのレコードが多くの同一ケースを示すためです。 C&R Tree、CHAID、QUEST、ディシジョン・リスト、ベイズ・ネットワーク・モデルで度数フィールドを使用することができます。 重みフィールドは、C&R Tree、CHAID、および C5.0 で使用することができます。 その他のモデル タイプでは、これらのフィールドを無視してモデルを構築します。 度数および重みフィールドはモデル作成にのみ使用され、モデルの評価またはスコアリングの場合は考慮されません。
接頭部
自動分類ノードのナゲットにテーブル・ノードを接続する場合は、名前が $ 接頭辞で始まるいくつかの新しい変数がテーブルに存在します。
スコアリング時に生成されるフィールドの名前は、対象フィールドに基づきますが、標準の接頭辞が付加されます。 それぞれのモデル・タイプで異なる接頭辞が使用されます。
例えば、接頭部 $G、 $R、 $C は、それぞれ一般化線型モデル、 CHAID モデル、および C5.0 モデルによって生成される予測の接頭部として使用されます。 通常、 $X はアンサンブルを使用して生成され、 $XR、 $XS、および $XF はそれぞれ、ターゲット・フィールドが「連続」、「カテゴリー」、または「フラグ」フィールドである場合に、接頭部として使用されます。
$ ..C 接頭部は、カテゴリー型またはフラグ型のターゲットの予測の信頼性に使用されます。例えば、 $XFC は、アンサンブル・フラグ予測の確信度の接頭部として使用されます。 $RC および $CC は、 CHAID モデルと C5.0 モデルの信頼性を 1 つの確信度で予測するための接頭部です。

サポートするモデル タイプ

サポートするモデル タイプは、ニューラル ネットワーク、C&R Tree、QUEST、CHAID、C5.0、ロジスティック回帰、ディシジョン リスト、ベイズ ネットワーク、判別分析、最近隣、SVM、XGBoost Tree、および XGBoost-AS です。

交差検証設定

ノード・プロパティーで、交差検証を設定することができます。 交差検証は、機械学習モデルの有効性をテストする (オーバーフィットを回避する) ための重要な手法です。また、データが制限されている場合に交差検証を再サンプリング手順として使用することにより、モデルを評価することができます。

K 分割交差検証は、交差検証を簡単に実行するための、よく使用される検査手法です。 通常、この検査手法では、元のデータ・セットのすべての観測がトレーニング・セットとテスト・セットに出現する機会があるため、単一のトレーニング・パーティションやテスト・パーティションと比較して、偏りの少ないモデルになります。 K 群交差検証の一般的な手順は次のとおりです。
注: 現時点では、( 「すべて実行」 ボタンなどを使用して複数の自動モデル作成ノードを同時に実行する) 交差検証モードでの並列自動モデル作成はサポートされていません。 回避策として、各自動モデル作成ノードを一度に 1 つずつ実行できます (交差検証はデフォルトで無効になっています)。
  1. データ・セットをランダムにシャッフルする。
  2. データ・セットを複数の K 分割またはグループに分割する。
  3. それぞれの分割/グループで、以下の処理を実行する。
    1. 分割/グループをホールド・アウトまたはテスト・データ・セットとして扱う。
    2. 残りのグループをトレーニング・データ・セットとして扱う。
    3. トレーニング・セットにモデルを適合させ、テスト・セットでそのモデルを評価する。
    4. 評価スコアを保存してモデルを破棄する。
  4. 保存された K 分割評価スコアを使用して、モデルの全体的な評価を要約する。

現在、交差検証は、自動分類ノードと自動数値ノードで使用することができます。 ノードをダブルクリックすると、そのノードのプロパティーが表示されます。 「交差検証」オプションを選択すると、単一のトレーニング・パーティション/テスト・パーティションが無効になり、自動ノードで K 分割交差検証を使用して、選択された一連のアルゴリズムが検証されます。

「分割数」(K) の値を、3 から 10 までの範囲で指定することができます。デフォルト値は 5 です。 さまざまな検査の実行で生成された複数のモデルについて、最終的な評価測定値を一貫性のあるものにする目的で、交差検査の実行時に繰り返し可能サンプリングを保持する場合は、「反復可能交差検証データ区分の割り当て」オプションを選択します。 「ランダム・シード」を特定の値に設定し、正確に再現可能なモデルを生成することもできます。 ランダムな値を常に同じ順序で生成する場合は、「生成」をクリックします。この場合、ノードを実行すると常に同じモデルが生成されます。

継続的機械学習

モデル化で不都合なこととして、時間の経過とともにデータが変更されることが原因で、モデルが古くなることがあります。 これは一般的に、モデル・ドリフト概念ドリフト と呼ばれます。 モデル・ドリフトを効果的に克服できるように、SPSS Modeler は継続的自動機械学習機能を備えています。 この機能は、自動分類ノードおよび自動数値ノード・モデル・ナゲットで使用可能です。 詳しくは、 継続的な機械学習を参照してください。

生成 AI の検索と回答
これらの回答は、製品資料の内容に基づいて、 watsonx.ai のラージ言語モデルによって生成されます。 詳細