연관 규칙은 특정 결과(예: 특정 제품의 구매)를 조건 세트(예: 다른 여러 제품의 구매)와 연관시킵니다.
예를 들어, 다음 규칙은
beer <= cannedveg & frozenmeal (173, 17.0%, 0.84)
Copy to clipboard클립보드에 복사됨
cannedveg 및 frozenmeal이 함께 발생할 때 beer도 종종 발생함을 보여줍니다. 이 규칙은 신뢰도가 84%로, 데이터의 17% 또는 173개 레코드에 적용됩니다. 연관 규칙 알고리즘은 웹 노드와 같은 시각화 기법을 사용하여 수동으로 찾을 수 있는 연관을 자동으로 찾습니다.
보다 표준적인 의사결정 트리 알고리즘(C5.0 및 C&R 트리)에 비해 연관 규칙 알고리즘을 사용했을 때의 이점은 모든 속성 간에 연관이 존재할 수 있다는 점입니다. 의사결정 트리 알고리즘은 단일 결론만 포함하는 규칙을 작성하지만, 연관 알고리즘은 각각 다른 결론을 보유할 수 있는 많은 규칙을 찾으려고 합니다.
연관 알고리즘의 단점은 잠재적으로 매우 큰 검색 공간에서 패턴을 찾으려 시도하기 때문에 의사결정 트리 알고리즘에 비해 실행하는 데 훨씬 더 많은 시간이 필요할 수 있다는 점입니다. 이 알고리즘은 생성 및 검정 방법을 사용하여 규칙을 찾고(단순 규칙은 초기에 생성됨) 이 규칙을 데이터 세트와 대조하여 검증합니다. 우수한 규칙을 저장한 후 다양한 제약조건이 적용되는 모든 규칙을 특수화합니다.특수화는 규칙에 조건을 추가하는 프로세스입니다 그런 다음 새 규칙을 데이터와 대조하여 검증하고 프로세스는 발견한 최상의 또는 가장 관심 있는 규칙을 반복해서 저장합니다. 사용자는 대개 규칙에 허용할 가능한 전항 수에 몇 가지 한계를 설정하고, 정보 이론에 기반한 다양한 기법 또는 효율적인 색인화 체계를 사용하여 잠재적으로 큰 검색 공간을 줄여 나갑니다.
처리가 끝나면 최상의 결과 테이블이 제시됩니다. 의사결정 트리와 달리, 이 연관 규칙 세트는 표준 모델(예를 들어, 의사결정 트리 또는 신경망)을 통해 가능한 방식으로 직접 예측을 수행할 수는 없습니다. 규칙의 여러 다른 가능한 결론이 존재하기 때문입니다. 연관 규칙을 분류 규칙 세트로 변환하려면 또 다른 변환 수준이 필요합니다. 이러한 이유로 연관 알고리즘을 통해 생성된 연관 규칙을 세분화되지 않은 모델이라 부릅니다. 사용자가 세분화되지 않은 모델을 찾아볼 수는 있지만 세분화되지 않은 모델에서 분류 모델을 생성하도록 시스템에 알리지 않으면 이 모델을 명시적으로 분류 모델로서 사용할 수 없습니다. 이 작업은 브라우저에서 메뉴 생성 옵션을 통해 수행합니다.
두 가지 연관 규칙 알고리즘이 지원됩니다.
Apriori 노드는 데이터에서 규칙 세트를 추출하여 가장 높은 정보 컨텐츠가 있는 규칙을 가져옵니다. Apriori는 규칙을 선택하는 5개의 서로 다른 방법을 제공하며 정교한 색인화 스킴을 사용하여 대형 데이터 세트를 효율적으로 처리합니다. 큰 문제점의 경우, Apriori는 일반적으로 훈련 속도가 빠릅니다. 보유할 수 있는 규칙 수에 임의 제한이 없으며 최대 32개의 전제조건을 가진 규칙을 처리할 수 있습니다. Apriori에서는 입력 및 출력 필드가 모두 범주형이어야 하지만 이런 유형의 데이터에 최적화되어 있기 때문에 우수한 성능을 제공합니다.
시퀀스 노드는 순차 또는 시간 지향 데이터에서 연관 규칙을 발견합니다. 순차규칙은 예측 가능한 순서로 발생하는 경향이 있는 항목 세트 목록입니다. 예를 들어, 면도기와 애프터쉐이브 로션을 구매하는 고객은 다음 번 구매 시에 면도용 크림을 구매할 수 있습니다. 시퀀스 노드는 시퀀스를 찾는 효율적인 2단계 방법을 사용하는 CARMA 연관 규칙 알고리즘에 기반합니다.