このノードでは、C5.0 アルゴリズムを使用して、ディシジョン ツリーまたはルール セットを作成します。 C5.0 モデルは、最大の情報の対応をもたらすフィールドに基づいてサンプルを分割します。 最初の分割によって定義された各サブサンプルは、異なるフィールドに基づいて再度分割されます。サブサンプルをこれ以上分割できなくなるまで、この過程が繰り返されます。 最終的に、最下位レベルの分割が再検証され、モデルの値にほとんど寄与しないレベルが削除 (剪定) されます。
C5.0 では、2 種類のモデルを生成できます。 ディシジョン ツリーは、アルゴリズムによって検出された分割の詳細を表しています。 各ターミナル (「葉」ノード) は、学習データの特定のサブセットを表します。学習データの各ケースは、ディシジョン・ツリーの 1 つのターミナル・ノードだけに属します。 つまり A ディシジョン・ツリーに存在する特定のデータ・レコードに対しては、1 つの予測だけが可能です。
これとは対照的に、ルール セットは、各レコードに対して予測を試みる複数のルールをセットにしたものです。 ルール・セットは、ディシジョン・ツリーから派生したもので、ディシジョン・ツリーで検索された情報を単純化または凝縮したものと言うことができます。 ルール・セットは、より単純なモデルでありながら、ディシジョン・ツリー全体からの重要な情報のほとんどを保持できます。 ルール・セットとディシジョン・ツリーでは機能が異なるため、属性も異なります。 最大の違いは、ルール・セットでは、特定のレコードに複数のルールが適用されることもあれば、ルールがまったく適用されないこともある点です。 複数のルールを適用する場合、各ルールに対して、そのルールに関連付けられた確信度に基づいて重み付けされた「票決」が行われ、最終的な予測は、対象レコードに適用するすべてのルールの重み付き票を組み合わせて決定されます。 適用するルールがない場合、デフォルトの予測がレコードに割り当てられます。
例。 ある医学研究者が、同じ病気に悩む患者に関するデータを収集しています。 治療過程において、それぞれの患者は 5 種類の薬品のうちのいずれかで効果がありました。 他のノードと一緒に C5.0 モデルを使用すると、同じ疾患を持つ将来の患者にどの薬が適しているかを調べることができます。
要件。 C5.0 モデルをトレーニングするには、1 つのカテゴリー (名義型または順序型) Target
フィールドと、任意のタイプの 1 つ以上の Input
フィールドが必要です。 Both
または None
に設定されたフィールドは無視されます。 モデルで使用するフィールド・タイプは、完全にインスタンス化する必要があります。 重みフィールドも指定できます。
利点 C5.0 モデルは、欠損データや大量の入力フィールドがあるような状況で役立ちます。 通常、推定に長い学習時間を必要としません。 また、C5.0 モデルから派生したルールは非常に解釈しやすいので、他のモデルよりわかりやすいという利点があります。 さらに、C5.0 では、分類の精度を向上するための強力なブースティング手法を利用できます。