0 / 0
영어 버전 문서로 돌아가기

DataStage에서 스테이지를 압축합니다

마지막 업데이트 날짜: 2025년 3월 12일
DataStage의 압축 스테이지

Compress 스테이지는 UNIX compress 또는 GZIP 유틸리티를 사용하여 데이터 세트를 압축합니다. 이 스테이지는 레코드 시퀀스의 데이터 세트를 원시 2진 데이터 스트림으로 변환합니다.

Compress 스테이지는 처리 스테이지입니다. 이 스테이지에는 단일 입력 링크와 단일 출력 링크가 있습니다.

압축 단계를 보완하는 단계는 확장 단계로, 데이터 스테이지의 DataStage에 설명되어 있습니다.

압축된 데이터 세트는 원래 데이터 세트와 유사하며 데이터 세트 스테이지별로 지속적 양식으로 저장 가능합니다. 그러나 압축 데이터 세트는 펼쳐지기 전에, 즉 해당 행이 정상 형식으로 복원되기 전에는 여러 스테이지에서 처리할 수 없습니다. 열 기반 처리를 수행하지 않거나 행을 재정렬하는 스테이지는 압축 데이터 세트를 처리할 수 없습니다. 예를 들어, Copy 스테이지를 사용하여 압축 데이터 세트의 사본을 작성할 수 있습니다.

데이터 세트를 압축하면 정규 레코드 경계가 제거되므로 압축된 데이터 세트를 확장하기 전에 다시 파티셔닝해서는 안 됩니다.

DataStage® 는 기존 데이터 세트 스키마를 서브레코드로 일반 압축 스키마에 넣습니다. 예를 들어 다음과 같은 스키마가 있는 데이터 세트가 있다고 가정합니다.
a:int32;
b:string[50];
압축 데이터 세트의 스키마는 다음과 같습니다.
record
  ( t: tagged {preservePartitioning=no}
    ( encoded: subrec
        ( bufferNumber: dfloat;
          bufferLength: int32;
          bufferData: raw[32000];
         );
      schema: subrec
        ( a: int32;
          b: string[50];
         );
따라서 압축된 파일을 재사용하려면 압축에 들어간 스키마가 아니라 '압축된 스키마'를 사용하여 파일을 읽어야 합니다.

압축 스테이지를 두 번 클릭하면 특성 패널이 열립니다. 특성 패널에는 다음 세 가지 탭이 있습니다.

  • 스테이지. 이 페이지는 항상 표시되며 스테이지에 대한 일반 정보를 지정하는 데 사용됩니다.
  • 입력. 압축할 데이터 세트에 대한 세부사항을 지정할 수 있습니다.
  • 출력. 이 페이지에서는 스테이지에서 출력되는 압축된 데이터에 대한 세부사항을 지정합니다.

입력 탭

컬럼 섹션은 수신 데이터의 컬럼 정의를 지정합니다. 고급 섹션에서는 입력 링크의 기본 버퍼링 설정을 변경할 수 있습니다.

출력 탭

컬럼 섹션은 데이터의 컬럼 정의를 지정합니다. 고급 섹션에서는 출력 링크의 기본 버퍼링 설정을 변경할 수 있습니다.