0 / 0

DataStage 에서 데이터 파티셔닝 및 수집

마지막 업데이트 날짜: 2025년 3월 12일
DataStage에서 데이터 파티셔닝 및 수집

스테이지 또는 커넥터가 데이터를 처리하거나 데이터 대상에 쓰기 전에 현재 링크에서 데이터를 파티션하거나 수집하는 방법에 대한 세부사항을 지정하려면 입력 탭이 있는 DataStage® 스테이지 또는 커넥터의 파티셔닝 섹션을 사용하십시오.

데이터 파티셔닝은 레코드 세트를 파티션 또는 레코드 서브세트로 구분하는 병렬 처리에 대한 접근 방식입니다. 자원 제약조건이나 다른 데이터 왜곡 문제가 없는 경우, 데이터 파티셔닝하면 애플리케이션 성능이 비례적으로 증가할 수 있습니다. DataStage 는 스테이지에 필요한 파티션 유형에 따라 자동으로 데이터를 파티션합니다.

또한 파티셔닝 섹션을 사용하여 데이터를 처리하거나 이를 데이터 대상에 쓰기 전에 입력 링크에 도달하는 데이터를 정렬할 수도 있습니다. 정렬이 사용 가능한지 여부는 선택한 파티셔닝 또는 수집 방법에 따라 다릅니다. 자동 방법의 경우 정렬을 사용할 수 없습니다. 파티셔닝 섹션은 기본 정렬 기능을 제공합니다. 더 복잡한 정렬 오퍼레이션의 경우 정렬 스테이지를 사용하십시오.

파티셔닝 섹션에는 다음의 제어 및 필드가 포함되어 있습니다.
파티셔닝
목록에서 파티셔닝 유형을 선택하십시오.
스테이지 탭에서 실행 모드가 병렬로 설정되어 있는 경우 파티션 유형 목록을 사용할 수 있습니다. 목록에서 방법을 선택하면 해당 방법이 현재 파티셔닝 방법을 대체합니다.
다음과 같은 파티션 유형을 사용할 수 있습니다.
(자동)
런타임 시 엔진은 다음을 기반으로 최적의 파티셔닝 메소드를 수행하려고 시도합니다.
  • 현재 스테이지와 이전 스테이지가 순차 모드 또는 병렬 모드 중 어느 모드로 실행되도록 설정되었는지 여부
  • 작업의 이전 스테이지에 파티셔닝 유지 옵션이 설정되어 있는지 여부
  • 구성 파일에 지정된 노드 수
대부분의 스테이지의 경우 자동이 기본 방법이지만, 파일 세트 검색 스테이지 또는 Db2 Enterprise 스테이지의 경우 자동을 사용할 수 없습니다.
DB2 커넥터
이 파티션 유형은 IBM Db2 for DataStage 커넥터에만 사용할 수 있습니다. 이 메소드가 지정되면, 커넥터는 파티션된 읽기 메소드 > 테이블 이름 등록 정보에 지정된 테이블의 파티션 수를 판별하고 파티션 수와 일치하도록 노드 수를 동적으로 구성합니다. LUW용 Db2® (Linux, Unix및 Windows) 테이블의 경우, 이 숫자는 테이블에 있는 DPF (Database Partitioning Feature) 파티션의 수입니다. Db2 for z/OS® 테이블의 경우, 이 숫자는 테이블에 있는 테이블 파티션의 수입니다. 이 커넥터는 각 노드를 한 개의 파티션과 연관시킵니다. 커넥터는 각 노드에 대해 해당 노드와 연관된 파티션에 속하는 행을 읽습니다.
전체
모든 처리 노드가 전체 데이터 세트를 수신합니다.
임의
난수 생성기의 출력을 기준으로 행이 무작위로 파티셔닝됩니다.
라운드 로빈
행은 스테이지에 진입할 때 라운드 로빈 방식으로 파티셔닝됩니다.
동일함
이 방법은 현재 데이터 파티션을 유지합니다.
모듈러스
행은 키 열에서 모듈러스 함수를 사용하여 파티션됩니다.
해시
행은 하나 이상의 키 열 값을 기반으로 파티션에 해시됩니다.
범위
이 방법은 하나 이상의 파티셔닝 키를 기준으로 데이터 세트를 대략적으로 동일한 크기의 파티션으로 나눕니다. 범위 파티셔닝은 데이터 세트에서 전체 정렬을 수행하기 위한 준비 단계로 사용되기도 합니다.
수집 중
목록에서 수집 유형을 선택하십시오.

해당 스테이지가 순차 모드에서 실행되도록 설정되어 있고 이전 스테이지는 병렬 모드에서 실행되도록 설정된 경우 콜렉션 유형 목록을 사용할 수 있습니다. 목록에서 방법을 선택하면 해당 방법이 기본 수집 방법인 자동을 대체합니다.

다음 수집 유형을 사용할 수 있습니다.
(자동)
자동 방법은 가장 빠른 수집 방법으로, 일반적으로 행이 사용 가능해지면 스테이지가 입력 파티션에서 행을 읽도록 합니다. 그러나 일부 상황에서는 스테이지가 자동으로 설정되어 있을 때 다른 수집 방법을 사용할 수 있습니다. 예를 들어, 작동 전에 스테이지에서 데이터의 정렬이 필요하면 해당 스테이지는 데이터를 정렬합니다.
순서화됨
이 방법은 첫 번째 파티션에서 모든 행을 읽은 다음 두 번째 파티션에서 모든 행을 읽는 방식으로 진행됩니다.
라운드 로빈
이 방법은 첫 번째 입력 파티션에서 하나의 행을 읽은 다음 두 번째 파티션에서 하나의 행을 읽는 방식으로 진행됩니다. 마지막 파티션에 도달하면 스테이지가 첫 번째 파티션부터 다시 시작됩니다.
병합 정렬
이 메소드는 행의 하나 이상의 열을 기반으로 순서대로 행을 읽습니다.
정렬
해당 제어를 사용하여 데이터의 정렬 방법을 지정할 수 있습니다. 데이터는 항상 데이터 파티션 내에서 정렬됩니다. 스테이지에서 수신 데이터를 파티셔닝하는 경우 데이터는 파티셔닝 후에 정렬됩니다. 스테이지가 수신 데이터를 수집하는 경우 콜렉션 전에 데이터가 정렬됩니다.
정렬
링크에 참여하는 데이터를 정렬하려면 정렬 수행을 선택하십시오.
안정
이전에 정렬된 데이터 세트를 유지하려면 안정을 선택하십시오. 기본값은 안정입니다.
고유
정렬 키 값마다 하나의 레코드만 보유하려면 고유를 선택하십시오. 다수의 레코드에 동일한 정렬 키 값이 있으면 하나를 제외한 모두가 제거됩니다. 안정 정렬도 설정된 경우, 정렬 키 값의 첫 번째 레코드는 보유 중인 레코드입니다.

DataStage 동적으로 생성된 구성 파일

DataStage 사용자가 생성한 구성 파일을 지원하지 않습니다. 런타임 환경에서 파티션 수를 설정하거나 환경 변수 ' APT_WLM_PARTITION_COUNT '을 파티션 수로 설정하여 동적으로 생성된 구성 파일의 파티션 수를 제공할 수 있습니다.