アソシエーション・ルールは、特定の結果 (特定の製品の購入など) と条件セット (複数の他の製品の購入など) を関連付けます。
例えば、次のルール
beer <= cannedveg & frozenmeal (173, 17.0%, 0.84)
beer
は、 cannedveg
と frozenmeal
が一緒に発生した場合によく発生することを示します。 このルールは信頼度 84% で、データの 17 %、つまり 173 個のレコードにあてはまります。 アソシエーション・ルールのアルゴリズムは、ユーザーが Web グラフ・ノードなどの視覚化手法を使用して手動で見つけていた連関を、自動的に見つけ出します。
より標準的な意思決定ツリー・アルゴリズム (C5.0 および C&R Trees) に対する関連ルール・アルゴリズムの利点は、属性の いずれか の間に関連付けが存在する可能性があることです。 ディシジョン・ツリーのアルゴリズムは、1 つの結果にいたるルールを構築するのに対し、アソシエーション・ルールのアルゴリズムは、それぞれが異なる結果にいたる多数のルールを見つけようとします。
アソシエーション・ルール・アルゴリズムは、パターンの検索範囲が非常に大きくなる可能性があり、そのためディシジョン・ツリーのアルゴリズムを実行するよりもはるかに時間がかかるという欠点があります。 アルゴリズムは 生成およびテスト メソッドを使用してルールを検索します。単純なルールが最初に生成され、これらのルールがデータ・セットに照らして検証されます。 適切なルールが保管され、さまざまな制約の対象となるすべてのルールが特殊化されます。 特殊化 は、条件をルールに追加するプロセスです。 次に、データに対して新しいルールの妥当性が検証され、この繰り返しによって、最善または最も関心の高いルールが保存されます。 通常、ユーザーは、ルールで許可する推定数を制限し、情報理論に基づく各種の手法や効果的なインデックス作成方法を使用して、広大になる可能性がある検索範囲を縮小します。
処理の最後に、最善のルールのテーブルが表示されます。 ディシジョン・ツリーとは異なり、このアソシエーション・ルールは、標準モデル (ディシジョン・ツリーやニューラル・ネットワークなど) のように、直接予測に使用することはできません。 このルールには、可能性のある結果が多数存在するからです。 アソシエーション・ルールを分類ルール・セットに変換するには、別のレベルの変換が必要です。 したがって、関連アルゴリズムによって生成される関連ルールは、未精製のモデルと呼ばれています。 ユーザーは、これらの未精製モデルを参照できますが、未精製モデルから分類モデルを生成するように操作しない限り、これらのモデルを分類モデルとして明示的に使用することはできません。 この操作は、「ノードの生成」メニュー・オプションを使用して、ブラウザーから実行できます。
次の 2 つのアソシエーション・ルール・アルゴリズムがサポートされています。
- Apriori ノードは、データからルール・セットを抽出し、最高の情報コンテンツを持つルールを引き出します。 Apriori には、5 種類のルール選択方法があり、高度なインデックス作成方法を使用して、大きなデータ・セットが効率的に処理されます。 大きな問題の場合は、一般に、Apriori の方が高速に学習できます。保持できるルール数に特に制限はありません。また、最大 32 の前提条件を持つルールを処理できます。 Apriori では、入力フィールドと出力フィールドのすべてがカテゴリーであることが必要ですが、この種類のデータに合わせて最適化されているので、よりよいパフォーマンスを実現します。
- 順序 ノードは、順次データまたは時間指向データでアソシエーション・ルールを検出します。 予測可能な順序で起こる傾向にあるアイテム・セットのリストを、シーケンスと呼びます。 例えば、顧客がひげそりとアフター・シェーブ ローションを購入した場合、その顧客は次の購入時にシェービング クリームを購入する可能性があります。 シーケンス・ノードは CARMA アソシエーション・ルール・アルゴリズムに基づいており、効率的な 2 段階通過法を使用してシーケンスを検出します。