資料の英語版に戻る

C5.0 ノード

最終更新: 2025年2月11日

C5.0 ノード (SPSS Modeler)

このノードでは、C5.0 アルゴリズムを使用して、ディシジョンツリーまたはルールセットを作成します。 C5.0 モデルは、最大の情報の対応をもたらすフィールドに基づいてサンプルを分割します。最初の分割によって定義された各サブサンプルは、異なるフィールドに基づいて再度分割されます。サブサンプルをこれ以上分割できなくなるまで、この過程が繰り返されます。最終的に、最下位レベルの分割が再検証され、モデルの値にほとんど寄与しないレベルが削除 (剪定) されます。

注: C5.0 ノードでは、カテゴリー対象のみを予測できます。カテゴリー型フィールド (名義型フィールドまたは順序型フィールド) のデータを分析する場合は、ノードによって複数のカテゴリーがグループ化される可能性があります。

C5.0 では、2 種類のモデルを生成できます。ディシジョンツリーは、アルゴリズムによって検出された分割の詳細を表しています。各ターミナル (「葉」ノード) は、学習データの特定のサブセットを表します。学習データの各ケースは、ディシジョン・ツリーの 1 つのターミナル・ノードだけに属します。つまり A ディシジョン・ツリーに存在する特定のデータ・レコードに対しては、1 つの予測だけが可能です。

これとは対照的に、ルールセットは、各レコードに対して予測を試みる複数のルールをセットにしたものです。ルール・セットは、ディシジョン・ツリーから派生したもので、ディシジョン・ツリーで検索された情報を単純化または凝縮したものと言うことができます。ルール・セットは、より単純なモデルでありながら、ディシジョン・ツリー全体からの重要な情報のほとんどを保持できます。ルール・セットとディシジョン・ツリーでは機能が異なるため、属性も異なります。最大の違いは、ルール・セットでは、特定のレコードに複数のルールが適用されることもあれば、ルールがまったく適用されないこともある点です。複数のルールを適用する場合、各ルールに対して、そのルールに関連付けられた確信度に基づいて重み付けされた「票決」が行われ、最終的な予測は、対象レコードに適用するすべてのルールの重み付き票を組み合わせて決定されます。適用するルールがない場合、デフォルトの予測がレコードに割り当てられます。

例。ある医学研究者が、同じ病気に悩む患者に関するデータを収集しています。治療過程において、それぞれの患者は 5 種類の薬品のうちのいずれかで効果がありました。他のノードと一緒に C5.0 モデルを使用すると、同じ疾患を持つ将来の患者にどの薬が適しているかを調べることができます。

要件。 C5.0 モデルをトレーニングするには、1 つのカテゴリー (名義型または順序型) Target フィールドと、任意のタイプの 1 つ以上の Input フィールドが必要です。 Both または None に設定されたフィールドは無視されます。モデルで使用するフィールド・タイプは、完全にインスタンス化する必要があります。重みフィールドも指定できます。

利点 C5.0 モデルは、欠損データや大量の入力フィールドがあるような状況で役立ちます。通常、推定に長い学習時間を必要としません。また、C5.0 モデルから派生したルールは非常に解釈しやすいので、他のモデルよりわかりやすいという利点があります。さらに、C5.0 では、分類の精度を向上するための強力なブースティング手法を利用できます。

ヒント: C5.0 モデル作成速度は、並列処理を有効にすることで利点を得ることができます。

注: 最初にフローを作成するときに、使用するランタイムを選択します。デフォルト設定の場合、IBM SPSS Modeler ランタイムがフローで使用されます。 SPSS アルゴリズムではなくネイティブの Spark アルゴリズムを使用する場合は、Spark ランタイムを選択します。このノードのプロパティーは、選択したランタイム・オプションによって異なります。

トピックは役に立ちましたか?

0/1000