通信の解約を予測する

最終更新: 2025年2月11日

通信の解約を予測する

このチュートリアルでは、入力フィールドの値に基づいてレコードを分類する統計手法であるロジスティック回帰モデルを構築します。これは線形回帰と似ているが、数値フィールドの代わりにカテゴリー・フィールドを取る。

例えば、ある電気通信事業者が、競合他社に奪われつつある顧客数を懸念しているとする。サービス使用量データを、どの顧客が他のプロバイダーに移りそうかを予測するために使用できれば、提案をカスタマイズして、できるだけ多くの顧客を維持することができます。

チュートリアルをプレビューする

ビデオを見るこのチュートリアルのステップをプレビューするには、このビデオをご覧ください。動画で表示されているユーザーインターフェースと若干異なる場合があります。このビデオは、文章によるチュートリアルの補助教材となることを目的としています。このビデオでは、この文書で説明する概念と作業を視覚的に学習する方法を提供しています。

チュートリアルを試す

このチュートリアルでは、以下のタスクを実行します：

タスク 1：サンプルプロジェクトを開く
タスク 2: データアセットとタイプノードを調べる
タスク3：フィルターノードのチェック
タスク4：モデルの構築
タスク5：モデルの生成

モデラーのフローとデータセットのサンプル

このチュートリアルでは、サンプルプロジェクトのTelecommunications Churnフローを使用します。使用するデータファイルはtelco.csvである。次の図は、モデラーのフロー例を示しています。

この例では、顧客消失 (解約) を予測するために使用量データを使用する方法に注目します。対象には 2 つの異なるカテゴリーがあるために、二項式モデルを使用します。対象が複数のカテゴリーを持つ場合は、代わりに多項モデルが作成されるかもしれない。

次の画像は、このモデラーフローで使用されるデータセットである。

タスク 1：サンプルプロジェクトを開く

サンプル・プロジェクトには、いくつかのデータ・セットとモデラー・フローのサンプルが含まれています。サンプルプロジェクトをまだお持ちでない場合は、チュートリアルのトピックを参照してサンプルプロジェクトを作成してください。次に、以下の手順でサンプルプロジェクトを開きます：

Cloud Pak for Dataナビゲーションメニューから、 [プロジェクト] > [すべてのプロジェクトを表示] の順に選択します。
SPSS ModelerProjectをクリックします。
アセット」タブをクリックすると、データセットとモデラーフローが表示されます。

進捗状況を確認する

次の図は、プロジェクトのAssetsタブを示しています。これで、このチュートリアルに関連するサンプルモデラーフローで作業する準備ができました。

サンプル・プロジェクト

先頭に戻る

タスク 2: データ資産とデータ型ノードを調べる

通信解約にはいくつかのノードがある。以下の手順に従って、データ・アセットと タイプ・ノードを調べます：

AssetsタブからTelecommunication Churnモデラー・フローを開き、キャンバスがロードされるのを待ちます。
telco.csvノードをダブルクリックする。このノードは、プロジェクト内のtelco.csvファイルを指すData Assetノードです。
ファイル形式のプロパティを確認します。
オプション：完全なデータセットを表示するには、データのプレビューをクリックします。
Typeノードをダブルクリックする。このノードは、測定レベル（フィールドが含むデータのタイプ）などのフィールド・プロパティや、モデリングにおけるターゲットまたは入力としての各フィールドの役割を指定する。すべての測定レベルが正しく設定されていることを確認する。例えば、'0.0と'1.0の値を持つほとんどのフィールドはフラグと見なすことができるが、性別のような特定のフィールドは、2つの値を持つ名目フィールドと見なす方が正確である。

図3：尺度

churn ターゲット・ロールを持つフラグとして設定されていることに注意。他のすべてのフィールドの役割はInputに設定されている。
チャーン（フィーチャー選択）モデリング・ノードをダブルクリックして、そのプロパティを表示します。予測変数/ターゲット関係について有用な情報を追加しない予測変数またはデータを削除するには，Feature Selectionノードを使用できる．
「Feature Selection（機能選択）」ノードの上にカーソルを移動し 、「Run（実行）」アイコン をクリックします。
Outputs and models（出力とモデル）ペインで、churn という名前のリストの最初のモデルをクリックして、モデルの詳細を表示します。

チェックポイントのアイコン進捗状況を確認する

次の画像はモデルの詳細を示している。これでFilterノードをチェックする準備ができました。

先頭に戻る

タスク3：フィルターノードのチェック

解約予測に役立つのは、telco.csvデータファイルの一部のデータだけである。フィルタを使用して、予測変数として使用するために重要とみなされるデータ（前のタスクで生成されたモデルで重要としてマークされたフィールド）だけを選択できます。 フィルター・ノードを確認するには、以下の手順に従ってください：

重要な機能（フィルタ）」ノードをダブルクリックして、そのプロパティを表示します。
1. このノードは、選択されたフィールド（'tenure、'age、'address、'income、'ed、'employなど）のみをフィルタリングすることに注意。この分析では、その他の分野は除外している。
  
  図4：フィルター・ノード重要な機能
2. 「キャンセル」をクリックします。
Filterノードの後にある28 Fields (Data Audit)出力ノードをダブルクリックします。
1. 「Data Audit」ノードにカーソルを合わせ 、「Run」アイコン をクリックします。
2. Outputs and models]ペインで、[Data Audit]という名前の結果をクリックして出力を表示します。
3. この列を見れば、大量のデータが欠落しているフィールドを特定することができます。このケースで修正する必要のあるフィールドは logtoll だけです。これは完了の割合が 50% を下回っています。
  
  図5 28フィールド出力
4. 出力を閉じる。
欠損値インプットスーパーノードをダブルクリックします。
1. View supernodeをクリックする。
2. Fill logtoll (Filler)ノードをダブルクリックします。
  フィラー・ノードは、フィールド値の置換やストレージの変更に使用される。 @BLANK(FIELD) のような、CLEM 条件に基づいて値を置換することができます。また、すべての空白値やヌル値を特定の値に置換することもできます。 フィラー・ノードは、欠落した値を置き換えるために、しばしばタイプ・ノードとともに使用される。
  Fill in fieldsセクションで、値を調べて置換したいデータセットのフィールドを指定できます。この場合、'logtollカラムは、ReplaceセクションのBlankおよびNull値オプションとともに指定される。
  
  図 6. フィラー・プロパティを持つ欠損値インプット・スーパーノード
3. 前のフローに戻る」をクリックする。

チェックポイントのアイコン進捗状況を確認する

次の図は、このフローを示しています。これでモデルを作る準備ができた。

先頭に戻る

タスク4：モデルの構築

ロジスティック・ノードを使用するモデルを構築します。以下の手順でモデルを作成する：

欠測値インピュテーション・スーパーノードの後にあるchurn (Logistic)ノードをダブルクリックして、そのプロパティを表示します。
モデル設定セクションで、二項手順を選択する。
- 二項モデルは、対象フィールドが2つの離散値を持つフラグフィールドまたはノミナルフィールドである場合に使用される。
- 多項モデルは、対象フィールドが2つ以上の値を持つ名義フィールドである場合に使用される。
次に、フォワード・ステップワイズ法を選択する。
Expert Optionsセクションで、Expertモードを選択する。
出力をクリックする。「各ステップ (At each step)」、「反復履歴 (Iteration history)」、および「パラメーター推定値 (Parameter estimates)」を選択し、「OK」をクリックします。

図 7. ロジスティック・ノードのオプション