DataStage에서 샘플 스테이지를 확인하세요
샘플 스테이지는 입력 데이터 세트를 샘플링합니다.
샘플 스테이지는 퍼센트 모드로 작동할 경우 단일 입력 링크와 여러 개의 출력 링크가 있을 수 있고, 간격 모드로 작동할 경우 단일 입력 및 단일 출력 링크가 있을 수 있습니다. 이 스테이지는 IBM DataStage에서 데이터 샘플링을 지원하기 위해 제공하는 여러 스테이지 중 하나입니다. 다음 스테이지도 참조하십시오.
- 헤드 스테이지, 헤드 스테이지의 DataStage.
- 테일 스테이지, 테일 스테이지, DataStage에서.
- 단계 보기, DataStage에서 단계 보기.
샘플 스테이지는 디버그 스테이지로서, 두 가지 모드로 작동합니다. 백분율 모드에서는 난수 생성기를 사용하여 행을 선택하여 추출하고 각 출력 데이터 세트에 해당 행의 지정된 백분율을 기록합니다. 출력 데이터 세트 수, 각 데이터 세트에 기록된 백분율 및 난수 생성기를 시작하기 위한 시드(seed) 값을 지정합니다. 동일한 수의 출력, 백분율 및 시드 값을 반복하여 지정된 분포를 재생성할 수 있습니다.
간격 모드에서는 각 파티션에서 N번째 간격으로 행을 추출합니다. 여기서 N은 사용자가 제공하는 간격입니다. 이 경우 모든 행이 단일 데이터 세트로 출력되므로 이 모드에서 사용되는 스테이지는 단일 출력 링크만 있을 수 있습니다.
두 모드 모두에 대해 각 파티션에서 샘플링할 최대 행 수를 지정할 수 있습니다.
입력 탭
컬럼 섹션은 수신 데이터의 컬럼 정의를 지정합니다.
출력 탭
백분율 모드에서는 스테이지에 원하는 수의 출력 링크가 있을 수 있으며, 간격 모드에서는 하나의 출력만 있을 수 있습니다. 출력 링크 드롭 다운 목록에서 작업할 링크를 선택하십시오.
컬럼 섹션은 출력 데이터의 컬럼 정의를 지정합니다. 맵핑 정보를 지정하려면 컬럼 섹션의 맨 아래에 있는 편집을 클릭하십시오. 맵핑은 샘플 스테이지에 입력되는 컬럼과 출력 컬럼 간의 관계를 지정합니다. 고급 섹션에서는 출력 링크의 기본 버퍼링 설정을 변경할 수 있습니다.
- 출력 맵핑
컬럼을 맵핑하려면 컬럼 섹션에서 편집을 클릭하십시오. 샘플링된 데이터의 컬럼을 확인하십시오. 이는 읽기 전용이므로 이 탭에서 수정할 수 없습니다. 수신 링크의 메타데이터가 표시됩니다.
오른쪽 분할창에는 출력 링크의 출력 컬럼이 표시됩니다. 여기에는 컬럼 파생 방법을 지정할 수 있는 파생 필드가 있습니다. 입력 컬럼을 끌어오거나 자동 일치 기능을 사용하여 이 필드를 채울 수 있습니다.