関連性規則は、特定の結論 (例えば、特定の製品の購入) と一連の条件 (例えば、他のいくつかの製品の購入など) を関連付けます。
例えば、次の規則は
beer <= cannedveg & frozenmeal (173, 17.0%, 0.84)
beer
は、 cannedveg
と frozenmeal
が一緒に発生した場合によく発生することを示します。 規則の信頼性は 84% で、17% のデータ 、または 173 個のレコードに適用されます。 アソシエーション・ルール・アルゴリズムにより、 Web ノードなどの視覚化技法を使用して手作業で検索できるアソシエーションが自動的に検出されます。
より標準的な意思決定ツリー・アルゴリズム (C5.0 および C&R Trees) に対する関連ルール・アルゴリズムの利点は、属性の いずれか の間に関連付けが存在する可能性があることです。 意思決定ツリー・アルゴリズムは、単一の結論のみを持つルールを作成しますが、関連アルゴリズムは多数のルールを検出しようとしますが、それぞれのルールに異なる結論が得られます。
関連アルゴリズムの欠点は、非常に大きな検索スペース内でパターンを検出しようとしているため、意思決定ツリー・アルゴリズムよりも多くの時間を実行する必要があるということです。 アルゴリズムは 生成およびテスト メソッドを使用してルールを検索します。単純なルールが最初に生成され、これらのルールがデータ・セットに照らして検証されます。 適切なルールが保管され、さまざまな制約の対象となるすべてのルールが特殊化されます。 特殊化 は、条件をルールに追加するプロセスです。 その後、これらの新しいルールがデータに対して検証され、プロセスが反復して、検出された最適なルールまたは最も興味深いルールを保存します。 ユーザーは通常、ルール内で許容できる数の前提条件をいくつか提供し、情報理論や効率的なインデックス化スキームに基づくさまざまな手法を使用して、潜在的に大きい検索スペースを削減します。
処理の終了時に、最適なルールの表が表示されます。 デシジョン・ツリーとは異なり、この関連ルール・セットは、標準モデル ( デシジョン・ツリーやニューラル・ネットワークなど ) によって予測を行うために直接使用することはできません。 これは、ルールについて考えられる多数の結論によるものです。 関連ルールを分類ルール・セットに変換するには、別のレベルの変換が必要です。 したがって、関連アルゴリズムによって生成される関連ルールは、未精製のモデルと呼ばれています。 ユーザーは、これらの未調整モデルを参照することができますが、非精製モデルからクラス判別モデルを生成するようにシステムに指示しない限り、分類モデルとして明示的に使用することはできません。 これは、「生成」メニュー・オプションを使用してブラウザーから実行します。
次の 2 つの関連ルール・アルゴリズムがサポート
- Apriori ノードは、データからルール・セットを抽出し、最高の情報コンテンツを持つルールを引き出します。 Apriori は、ルールを選択するための 5 つの異なる方法を提供し、大規模なデータ・セットを効率的に処理するための高度な索引付け方式 大きな問題の場合、Apriori は通常より高速で、保持可能なルール数には制限がなく、最大 32 個の前提条件を持つルールを処理できます。 Apriori は、入力フィールドと出力フィールドをすべてカテゴリー化する必要がありますが、このタイプのデータ用に最適化されているため、パフォーマンスが向上します。
- 順序 ノードは、順次データまたは時間指向データでアソシエーション・ルールを検出します。 シーケンスは、予測可能な順序で発生する傾向があるアイテム・セットのリストです。 例えば、ラゾルやアフターシェーブローションを購入する顧客は、次回の店ではシェービングクリームを購入することがあります。 シーケンス・ノードは、 CARMA アソシエーション・ルール・アルゴリズムに基づいています。このアルゴリズムは、シーケンスを検索するための効率的な 2 パス方式を使用します。