連続的なターゲットのモデリングを自動化

資料の英語版に戻る

連続的なターゲットのモデリングを自動化

最終更新: 2024年12月12日

連続的なターゲットのモデリングを自動化

このチュートリアルでは、Auto Numericノードを使用して、不動産の課税価格を予測するような連続的な（数値範囲の）結果について、さまざまなモデルを自動的に作成し、比較します。単一のノードで、候補モデルのセットを推定および比較し、より詳細な分析のためにモデルのサブセットを生成することができます。このノードはAuto Classifierノードと同じように動作するが、フラグやノミナル・ターゲットではなく、連続的なターゲットに対して動作する。

ノードは、最良の候補モデルを単一の集計済み (アンサンブル) モデル・ナゲットに結合します。この方法は自動化の容易さと複数モデルの結合の利点を組み合わせるため、多くの場合、単一のモデルから取得するよりも精度が高い予測が得られます。

この例は、固定資産税を調整して評価する架空の自治体に焦点を当てています。この目標をより正確に達成するために、建物のタイプ、近隣、広さ、その他の既知の要素に基づいて不動産価値を予測するモデルを構築する。

チュートリアルを試す

このチュートリアルでは、以下のタスクを実行します：

タスク 1：サンプルプロジェクトを開く
タスク 2: データアセットとタイプノードを調べる
タスク3：モデリングノードの構成
タスク4：モデルの比較
タスク 5: 分析ノードの実行

モデラーのフローとデータセットのサンプル

このチュートリアルでは、サンプル・プロジェクトの「Automated Modeling for a Continuous Target」フローを使用します。使用されるデータファイルはproperty_values_train.csv です。次の図は、モデラーのフロー例を示しています。

データファイルには「taxable_value名前のフィールドがあり、これは予測したいターゲット・フィールド（値）である。その他のフィールドには、近隣、建物タイプ、室内容積などの情報が含まれ、予測因子として使用される可能性がある。

フィールド名	ラベル
`property_id`	プロパティーID
`neighborhood`	市内のエリア
`building_type`	建物のタイプ
`year_built`	建築年
`volume_interior`	室内の容積
`volume_other`	ガレージおよびその他の建物の容積
`lot_size`	ロット・サイズ
`taxable_value`	課税対象価格

次の画像はサンプルデータセットです。

タスク 1：サンプルプロジェクトを開く

サンプル・プロジェクトには、いくつかのデータ・セットとモデラー・フローのサンプルが含まれています。サンプル・プロジェクトをまだお持ちでない場合は、チュートリアル・トピックを参照してサンプル・プロジェクトを作成してください。次に、以下の手順でサンプルプロジェクトを開きます：

watsonx」で、ナビゲーションメニュー「」から「プロジェクト」＞「すべてのプロジェクトを表示」を選択する。
SPSS ModelerProjectをクリックします。
アセット」タブをクリックすると、データセットとモデラーフローが表示されます。

進捗状況を確認する

次の図は、プロジェクトのAssetsタブを示しています。これで、このチュートリアルに関連するサンプルモデラーフローで作業する準備ができました。

サンプル・プロジェクト

先頭に戻る

タスク 2: データアセットとタイプノードを調べる

連続ターゲットの自動モデリングにはいくつかのノードがある。以下の手順に従って、データ・アセットと タイプ・ノードを調べます：

Assets］タブで［Automated Modeling for a Continuous Target］モデラー・フローを開き、キャンバスがロードされるのを待つ。
property_values_train.csvノードをダブルクリックします。このノードは、プロジェクト内のproperty_values_train.csvファイルを指すData Assetノードです。
ファイル形式のプロパティを確認します。
オプション：完全なデータセットを表示するには、データのプレビューをクリックします。
Typeノードをダブルクリックする。
taxable_valueフィールドでは、Roleを Targetに設定する。その他のフィールドは予測因子として使用される。
図3：測定レベルと役割を設定する
オプション：フィルタリングされたデータセットを表示するには、データのプレビューをクリックします。

チェックポイントのアイコン進行状況を確認する

次の図はTypeノードを示している。これでModelingノードの設定は完了です。

先頭に戻る

タスク3：モデリングノードの構成

この例では、自動数値モデリング・ノードを使用して、連続数値範囲に対する様々なアプローチを試すために、モデルを推定し比較する。以下の手順に従って、モデリング・ノードを設定する：

Taxable-valueノードをダブルクリックしてプロパティを表示する。
基本セクションを展開し、以下のプロパティを設定する：
1. Rank models byフィールドで、Correlationを選択する。
2. 使用モデル数フィールドには、「3入力する。これは、ノードを実行するときに 3 つの最適なモデルが作成されることを意味します。
図4：オート数値ノードの基本セクション
エキスパートセクションを展開する。 6つのアルゴリズムが選択され、その結果、ノードは各アルゴリズムについて1つのモデルを推定し、合計6つのモデルを推定する。 (また、これらの設定を変更して、各モデル・タイプの複数のバリアントを比較することもできます)。 BasicsセクションでNumber of models to useプロパティを'3に設定しているため、ノードは6つのアルゴリズムの精度を計算し、最も精度の高い3つを含む単一のモデルナゲットを構築します。
図 5. 自動数値ノードエキスパートセクション
アンサンブル・セクションを展開し、デフォルト設定を表示します。この例では連続的なターゲットを使用しているため、アンサンブル・スコアは個々のモデルのスコアを平均することで生成されます。
図 6. オート数値ノードアンサンブルセクション

チェックポイントのアイコン進捗状況を確認する

次の図はModelingノードを示している。これでモデルを比較する準備は整った。

先頭に戻る

タスク4：モデルの比較

構築する3つのモデルを指定したので、以下の手順に従ってモデルを生成し、比較してください：

taxable_valueノードにカーソルを合わせ、実行アイコン'をクリックする。
出力とモデル]ペインで、[taxable_value]という名前の結果をクリックして結果を表示します。
実行中に作成された各モデルの詳細が表示されます。 (何百ものモデルを大規模なデータセットで推定するような実際の状況では、フローを実行するのに何時間もかかるかもしれない) このテーブルには、Modelingノードによって生成されたモデルのセットが含まれる。
個々のモデルをさらに詳しく調べるには、Estimator列のモデル名をクリックすると、個々のモデルの結果が表示されます。
1. モデル情報ページを見るこの表には、フィッティングされるモデルのタイプ、対象分野の特定、入力特徴の数、活性化関数、結果のネットワークのサイズに関する情報が含まれている。
2. そのモデルの他のページを見る。
3. モデルの詳細を閉じます。
デフォルトでは、Auto Numericノードのプロパティで相関を尺度として選択したため、モデルは精度（相関）でソートされます。ランク付けのために、精度の絶対値が使用されます。1 に近い値ほど強力な関係を示します。

別の列でソートするには、その列のヘッダーをクリックします。

これらの結果に基づいて、3 つの最も正確なモデルをすべて使用するように指定します。複数のモデルからの予測を組み合わせることで、個々のモデルにおける制限を回避し、結果として全体的な精度を高めることができるかもしれない。
使用欄で3つのモデルすべてが選択されていることを確認する。
View Model: taxable_valueウィンドウを閉じます。

チェックポイントのアイコン進行状況を確認する

以下の画像はモデル比較表です。これでモデル分析を実行する準備が整いました。

先頭に戻る

タスク 5: 分析ノードの実行

これで3つのモデルの比較を見ることができたので、次のステップに従ってモデルの分析を行うことができる：

分析ノードにカーソルを合わせ、実行アイコン「」をクリックする。
Outputs and models"ペインで、"Analysis "という名前の出力結果をクリックして結果を表示します。
アンサンブルモデルによって生成された平均スコアは、「$XR-taxable_value名付けられたフィールドに追加され、3つの個別モデルのスコアよりも高い0.934の相関を持つ。アンサンブル・スコアは平均絶対誤差も低く、他のデータセットに適用した場合、個々のモデルよりも優れた性能を発揮する可能性がある。

チェックポイントのアイコン進行状況を確認する

次の画像は、Analysisノードからのモデル比較を示しています。

先頭に戻る

サマリー

この例の'フラッグ・ターゲットの自動モデリングフローでは、'オート数値ノードを使用して複数の異なるモデルを比較し、最も正確な3つのモデルを選択し、それらをアンサンブルされたAuto Numericモデルナゲット内のフローに追加した。

アンサンブルモデルは、2つの個別モデルよりも優れた性能を示し、他のデータセットに適用した場合、より優れた性能を発揮する可能性がある。可能な限りプロセスを自動化することが目標であれば、このアプローチは、どのモデルの詳細についても深く掘り下げることなく、ほとんどの状況下でロバストなモデルを得るのに役立つ。

今後のステップ

これで、他のSPSS® Modelerチュートリアルを試す準備ができました。

チュートリアルを試す

モデラーのフローとデータセットのサンプル

タスク 1：サンプルプロジェクトを開く

タスク 2: データアセットとタイプノードを調べる

タスク3： モデリングノードの構成

タスク4：モデルの比較

タスク 5: 分析ノードの実行

サマリー

今後のステップ

タスク3：モデリングノードの構成