C&R Tree ノードには、ツリーベースの分類と予測の方法があります。 この方法では、C5.0 と同様に、帰納的な分岐が行われ、学習レコードが同じような出力フィールド値を持つセグメントに分割されます。 まず、入力フィールドが検証されます。分割による不純度の減少が測定され、最適な分割が検出されます。 次に、分割によって 2 つのサブグループが定義されます。停止基準が起動されるまで、2 つのサブグループへの分割が繰り返されます。 すべての分割は 2 分割 (2 つのサブグループのみ) です。
剪定
C&R Tree は、最初にツリーを成長させるオプションを提供しており、その後、ターミナル・ノードの数に基づいていリスク予測フィールドを調整する、コスト-複雑性アルゴリズムに基づいて剪定します。 この方法では、より複雑な基準に基づいて剪定前にツリーを大きく成長させることができ、より優れた交差検証特性を持つより小さいツリーが得られる結果になるかもしれません。 ターミナル・ノード数の増加は、一般的に現在の (学習) データのリスクを低減しますが、モデルが事前に検討していないデータに対して一般化されるときには、実際のリスクがより高くなることがあります。 極端な場合、学習セットの各レコードに別々のターミナル・ノードを持っているとします。 すべてのレコードが独自のノードに分類されるため、リスク推定値は 0% になりますが、見えない (テスト) データの誤分類のリスクは、ほぼ確実に 0よ り大きくなると思われます。 コスト複雑度は、これを補正することへの試みを測定します。
例。 あるケーブル テレビ会社が、ケーブル経由のインタラクティブ ニュース・サービスをどの顧客が購入するかを判断するためのマーケティング調査を委託しました。 調査データを使用して、対象フィールドを購読する意図とするフローを作成し、予測値フィールドに、年齢、性別、教育レベル、収入カテゴリー、毎日テレビ視聴に費やす時間、および子供の数を含めます。 C&R Tree ノードをフローに適用することで、キャンペーンで最高の回答率を得るために、回答を予測し分類することができます。
要件。 C & R Tree モデルを学習するには、1 つ以上の Input
フィールドと 1 つの Target
フィールドが必要です。 対象フィールドおよび入力フィールドは、連続型 (数値範囲) またはカテゴリーとなります。 Both
または None
に設定されたフィールドは無視されます。 モデルで使用されるフィールドは、その型を完全にインスタンス化している必要があり、モデルで使用される順序型 (順序セット) フィールドは、数値ストレージ (文字列不可) である必要があります。 必要な場合、データ分類ノードを使用して変換できます。
利点 C&R Tree モデルは、欠損データや大量のフィールドなどの問題が存在する場合に非常に強力です。 通常、推定に長い学習時間を必要としません。 また、C&R Tree モデルから派生したルールは非常に解釈しやすいので、他のモデルよりわかりやすいという利点があります。 C5.0 とは異なり、C&R では、出力フィールドとして連続型フィールドもカテゴリー型フィールドも使用できます。