0 / 0
영어 버전 문서로 돌아가기

애그리게이터 스테이지: 단계 탭(DataStage®)

마지막 업데이트 날짜: 2025년 3월 12일
Aggregator 스테이지: 스테이지 탭(DataStage)

Aggregator 스테이지 탭에서는 Aggregator 스테이지의 여러 측면을 제어할 수 있습니다.

스테이지를 두 번 클릭하면 스테이지 특성 패널이 열립니다. 특성 섹션에서는 스테이지에서 수행하는 작업을 지정할 수 있습니다. 고급 섹션에서는 스테이지 실행 방법을 지정할 수 있습니다. 스테이지에 대한 설명은 선택적으로 지정하십시오.

특성 섹션

특성 섹션에서는 스테이지에서 실제로 수행하는 작업을 정의할 수 있습니다.

다음 표에는 특성 및 해당 속성이 나열되어 있습니다.

표 1. 특성
카테고리/특성 기본값 필수 여부 반복 여부 종속
그룹화 키/그룹 입력 컬럼 해당사항 없음 Y Y 해당사항 없음
그룹화 키/대소문자 구분 True/ False N N 그룹
집계/집계 유형 계산/재계산/행 계수 계산 Y N 해당사항 없음
집계/계산을 위한 컬럼 입력 컬럼 해당사항 없음 Y(집계 유형 = 계산인 경우) Y 해당사항 없음
집계/개수 출력 컬럼 출력 컬럼 해당사항 없음 Y(집계 유형 = 행 계수인 경우) Y 해당사항 없음
집계/재계산을 위한 요약 컬럼 입력 컬럼 해당사항 없음 Y(집계 유형 = 재계산인 경우) Y 해당사항 없음
집계/기본값으로 10진수 출력 정밀도, 스케일 8,2 N N 해당사항 없음
집계/수정된 제곱합 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/최대값 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/평균 값 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/최소값 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/누락된 값 출력 컬럼 해당사항 없음 N Y 계산을 위한 컬럼
집계/누락된 값 개수 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/누락되지 않은 값 개수 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/변동 계수(%) 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/범위 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/표준 편차 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/표준 오차 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/가중치 합계 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/합계 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/요약 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/수정되지 않은 제곱합 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집합/분산 출력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 및 재계산을 위한 요약 컬럼
집계/편차 약수 기본값/Nrecs 기본값 N N 분산
집계/계산 및 재계산 종속 특성 입력 컬럼 해당사항 없음 N N 계산을 위한 컬럼 또는 개수 출력 컬럼
집계/10진수 출력 정밀도, 스케일 8,2 N N 계산 또는 재계산 방법
옵션/그룹화 키 해시/정렬 해시 Y Y 해당사항 없음
옵션/널 출력 허용 True/ False 아니오 Y N 해당사항 없음

그룹화 키

그룹

이 특성을 반복적으로 사용하여 여러 컬럼을 그룹 키로 선택할 수 있습니다. 필요한 경우 여러 그룹 키를 한 번에 선택하려면 편집을 클릭하십시오. 이 특성에는 다음과 같은 종속 특성이 있습니다.

  • 대소문자 구분

    그룹 키가 대소문자를 구분하는지 여부를 지정하는 데 사용합니다. 기본적으로 True로 설정됩니다. 즉, "CASE" 및 "case" 값이 서로 다른 그룹에 있게 됩니다.

집계 카테고리

집계 유형
계산(기본값), 재계산, 행 계수 중 하나를 선택하십시오.
계산을 위한 컬럼
집계 섹션에서 편집을 클릭하여 계산할 컬럼을 선택하십시오. 계산 집계 유형을 사용하면 하나 이상의 집계 함수를 입력 데이터 세트에 적용하여 입력 데이터 세트에 있는 특정 컬럼의 컨텐츠를 요약할 수 있습니다. 집계할 컬럼을 선택한 후 종속 특성을 선택하여 해당 컬럼에 대해 수행할 오퍼레이션과 결과를 전달할 출력 컬럼을 지정하십시오. 필요한 경우 컬럼 선택 대화 상자를 사용하여 계산할 컬럼을 한 번에 여러 개 선택할 수 있습니다.
개수 출력 컬럼
행 계수 집계 유형은 각 그룹 내의 레코드 수를 계산합니다. 개수를 출력할 컬럼을 지정하십시오.
재계산을 위한 요약 컬럼
이 집계 유형을 사용하면 이미 요약된 컬럼에 집계 함수를 적용할 수 있습니다. 이는 계산과 유사하지만 이미 요약된 데이터 세트에 대해 지정된 집계 오퍼레이션을 수행합니다. 실제로 요약 특성을 설정하여 이전 집계 스테이지에서 계산(또는 재계산) 오퍼레이션을 수행하여 요약 데이터가 포함된 서브레코드를 생성해야 해당 데이터 세트에 요약 데이터가 포함됩니다. 집계할 컬럼을 선택한 후 종속 특성을 선택하여 해당 컬럼에 대해 수행할 오퍼레이션과 결과를 전달할 출력 컬럼을 지정하십시오. 필요한 경우 컬럼 선택 대화 상자를 사용하여 재계산할 컬럼을 한 번에 여러 개 선택할 수 있습니다.
가중치 컬럼
그룹 수를 1 대신 그룹의 각 레코드에 대한 가중치 컬럼의 컨텐츠로 증분하도록 스테이지를 구성합니다. 재계산을 위한 요약 컬럼에는 사용할 수 없습니다. 이 옵션을 설정하면 다음 옵션에만 영향을 미칩니다.
  • 변동 계수(%)
  • 평균 값
  • 합계
  • 가중치의 합계
  • 수정되지 않은 제곱합
기본값으로 10진수 출력
계산 또는 재계산 컬럼의 출력 유형은 double입니다. 이 특성을 설정하면 기본적으로 10진수로 출력됩니다. 개별 컬럼은 10진수 출력을 사용하고 다른 컬럼은 기본 유형인 double을 유지하도록 지정할 수 있습니다. 기본 정밀도 및 스케일을 설정할 수도 있습니다.

옵션

방법

모드 선택은 주로 사용 가능한 메모리 양을 고려하여 입력 데이터 세트의 그룹 수에 따라 달라집니다. 일반적으로 그룹 수가 상대적으로 적은 경우 즉, 사용할 메모리의 메가바이트당 그룹 수가 약 1000개 미만인 경우에 사용하십시오.

해시 모드를 사용하는 경우, 동일한 그룹에 있는 모든 레코드가 동일한 파티션에 있도록 입력 데이터 세트를 하나 이상의 그룹화 키 컬럼으로 해시 파티셔닝해야 합니다. 그러나 해시 파티셔닝은 필수가 아니므로, 그룹을 단일 파티션에 함께 보존하는 것이 중요하지 않은 경우에 선택하는 파티셔닝 방법을 사용해도 됩니다. 예를 들어, 각 파티션의 레코드를 합산하고 나중에 모든 파티션의 합계를 더하려는 경우 이를 수행하기 위해 그룹의 모든 레코드가 동일한 파티션에 있을 필요는 없습니다. 그러나 그룹마다 여러 개의 출력 레코드가 있음을 참고하십시오.

그룹 수가 크거나 그룹화 키를 많이 지정하거나 일부 그룹화 키가 많은 값을 가질 수 있는 경우에는 일반적으로 정렬 모드를 사용하십시오. 그러나 정렬 모드를 사용하려면 입력 데이터 세트가 해싱 및 정렬 키로 지정된 모든 그룹화 키로 파티션 정렬되어 있어야 합니다(파티셔닝 탭에 자동이 설정되어 있는 경우 자동으로 수행됨). 정렬에는 사전 그룹화 오퍼레이션이 필요합니다. 정렬 후에는 동일한 파티션에 있는 지정된 그룹의 모든 레코드가 연속적입니다.

방법 특성은 기본적으로 해시로 설정됩니다.

특정 데이터와 애플리케이션으로 두 모드를 모두 사용해 보고 더 나은 성능을 제공하는 모드를 결정할 수 있습니다. 많은 수의 그룹에 대한 통계를 계산할 때 입력 데이터 세트를 그룹에 전달하기 전에 효율적으로 정렬할 수 있다고 가정하면 정렬 모드가 해시 모드보다 성능이 우수할 수 있습니다.

널 출력 허용
최소값, 최대값, 평균 값, 표준 편차, 표준 오차, 합계, 가중치 합계 및 분산을 계산할 때 널이 유효한 출력 값임을 나타내려면 이 특성을 True로 설정하십시오. False일 경우, 계산 컬럼의 모든 입력 값이 널일 때 널 값이 0으로 대체됩니다. 기본적으로 False입니다.

고급

다음과 같은 고급 특성을 지정하십시오.
  • 실행 모드. 이 스테이지는 병렬 모드 또는 순차 모드로 실행될 수 있습니다. 병렬 모드에서는 입력 데이터 세트가 구성 파일에 지정된 사용 가능한 노드에서 처리되고 고급 섹션에 지정된 노드 제한조건에 따라 처리됩니다. 순차 모드에서는 전체 데이터 세트가 컨덕터 노드에서 처리됩니다.
  • 결합 모드. 기본값은 자동이며, 이 경우 IBM DataStage에서는 병렬 스테이지의 기반이 되는 연산자를 결합하여 이 유형의 스테이지에 적합한 경우 동일한 프로세스에서 실행되도록 합니다.
  • 파티셔닝 유지. 기본값은 설정입니다. 설정 또는 해제 중에서 선택할 수 있습니다. 설정을 선택하면 작업의 다음 스테이지에서 파티셔닝을 유지하도록 스테이지에서 요청합니다.