0 / 0
영어 버전 문서로 돌아가기

고유 노드

마지막 업데이트 날짜: 2025년 2월 12일
고유 노드(SPSS Modeler)

데이터 마이닝을 시작하려면 먼저 데이터 세트의 중복 레코드를 제거해야 합니다. 예를 들어, 마케팅 데이터베이스에서 주소 또는 회사 정보가 다른 개인이 여러 번 표시될 수 있습니다. 고유 노드를 사용하여 데이터에서 중복 레코드를 찾거나 제거하거나 중복 레코드 그룹에서 하나의 복합 레코드를 작성할 수 있습니다.

고유 노드를 사용하려면 먼저 두 레코드가 중복으로 간주되는 경우를 판별하는 키 필드 세트를 정의해야 합니다.

모든 필드를 키 필드로 선택하지 않는 경우 두 개의 "중복" 레코드는 나머지 필드의 값에 여전히 차이가 있을 수 있기 때문에 진정으로 동일할 수 없습니다. 이 경우에는 각각의 중복 레코드 그룹 내에서 적용되는 정렬 순서도 정의할 수 있습니다. 이 정렬 순서를 통해 그룹에서 첫 번째로 처리되는 레코드를 미세 제어할 수 있습니다. 그렇지 않으면 모든 중복이 교환 가능한 것으로 간주되어 모든 레코드를 선택할 수 있습니다. 레코드의 수신 순서는 고려되지 않으므로 업스트림 정렬 노드를 사용하는 데 도움이 되지 않습니다 (이 페이지의 "고유 노드 내에서 레코드 정렬" 참조).

모드. 복합 레코드를 작성할지 아니면 첫 번째 레코드를 포함 또는 제외(삭제)할지 지정하십시오.

  • 각 그룹에 대해 복합 레코드 작성. 숫자가 아닌 필드를 통합하는 방법을 제공합니다. 이 옵션을 선택하면 복합 레코드 작성 방법을 지정하는 복합 탭을 사용할 수 있습니다.
  • 각 그룹의 첫 번째 레코드만 포함. 중복 레코드 그룹 각각의 첫 번째 레코드를 선택하고 나머지는 삭제합니다. 첫 번째 레코드는 레코드의 수신 순서가 아니라 그룹 내 레코드 정렬 기준에 정의된 정렬 순서에 의해 결정됩니다.
  • 각 그룹의 첫 번째 레코드만 삭제. 중복 레코드 그룹 각각의 첫 번째 레코드를 삭제하는 대신 나머지는 선택합니다. 첫 번째 레코드는 레코드의 수신 순서가 아니라 그룹 내 레코드 정렬 기준에 정의된 정렬 순서에 의해 결정됩니다. 이 옵션은 플로우에서 나중에 중복을 검사할 수 있도록 데이터에서 중복을 찾는 경우에 유용합니다.

그룹화를 위한 키 필드. 레코드가 동일한지 판별하는 데 사용되는 필드를 나열합니다. 다음과 같은 일을 할 수 있습니다.

  • 필드 선택도구 단추를 사용하여 이 목록에 필드를 추가하십시오.
  • 빨간색 X(제거) 단추를 사용하여 목록에서 필드를 삭제하십시오.

그룹 내에서 레코드 정렬 기준. 각 중복 그룹 내에서 레코드가 정렬되는 방식과 해당 레코드가 오름차순과 내림차순 중 어느 순서로 정렬되는지를 결정하는 데 사용되는 필드를 나열합니다. 다음과 같은 일을 할 수 있습니다.

  • 필드 선택도구 단추를 사용하여 이 목록에 필드를 추가하십시오.
  • 빨간색 X(제거) 단추를 사용하여 목록에서 필드를 삭제하십시오.
  • 위로 또는 아래로 단추를 사용하여 필드를 이동하십시오(둘 이상의 필드를 기준으로 정렬하는 경우).

각 그룹의 첫 번째 레코드를 포함하거나 제외하도록 선택한 경우 첫 번째로 처리되는 레코드가 사용자에게 중요하면 정렬 순서를 지정해야 합니다.

복합 탭의 특정 옵션에 대해 복합 레코드를 작성하도록 선택한 경우에도 정렬 순서를 지정할 수 있습니다.

기본적으로 레코드가 정렬 키 값의 오름차순내림차순 중 어느 순서로 정렬되는지를 지정하십시오.

고유 노드 내에서 레코드 정렬

중복 그룹 내 레코드의 순서가 사용자에게 중요한 경우에는 고유 노드에서 그룹 내, 레코드 정렬 기준 옵션을 사용하여 순서를 지정해야 합니다. 업스트림 정렬 노드에 의존하지 마십시오. 레코드의 수신 순서는 고려되지 않으며 노드 내에서 지정된 순서만 고려된다는 점을 기억하십시오.

정렬 필드를 지정하지 않는 경우(또는 충분하지 않은 정렬 필드를 지정하는 경우) 각 중복 그룹 내 레코드는 정렬되지 않거나 불완전하게 정렬되므로 결과를 예측할 수 없습니다.

예를 들어, 다수의 머신에 관한 매우 큰 로그 레코드 세트가 있다고 가정해 봅니다. 이 로그에는 다음과 같은 데이터가 포함되어 있습니다.

표 1. 머신 로그 데이터
시간소인 시스템 온도
17:00:22 시스템 A 31
13:11:30 시스템 B 26
16:49:59 시스템 A 6시간에서 30분
18:06:30 Machine X 32
16:17:33 시스템 A 29
19:59:04 머신 C 35
19:20:55 Machine Y 34
15:36:14 Machine X 20
12:30:41 Machine Y 25
14:45:49 머신 C 27
19:42:00 시스템 B 34
20:51:09 Machine Y 36
19:07:23 Machine X 33

레코드 수를 각 머신에 대한 최신 레코드까지 줄이려면 Machine을 키 필드로 사용하고 Timestamp를 정렬 필드(내림차순)로 사용하십시오. 정렬 선택사항은 지정된 머신에 대한 다수의 행 중 리턴될 행을 지정하므로 입력 순서는 결과에 영향을 미치지 않으며 최종 데이터 출력은 다음과 같습니다.

표 2. 정렬된 머신 로그 데이터
시간소인 시스템 온도
17:00:22 시스템 A 31
19:42:00 시스템 B 34
19:59:04 머신 C 35
19:07:23 Machine X 33
20:51:09 Machine Y 36