Microsoft Excel에서 데이터 추출(DataStage )
Excel 단계를 사용하여 Microsoft Excel 파일에서 선택한 데이터 범위에서 여러 유형의 데이터를 추출할 수 있습니다.
데이터 범위
Excel 스테이지를 사용하는 경우 Microsoft Excel 스프레드시트에 지정된 데이터 범위에서 데이터를 추출할 수 있습니다.
데이터 범위는 셀, 행, 열 또는 셀의 하나 이상의 연속적인 블록을 포함하는 셀의 선택을 나타냅니다. 데이터 범위는 범위 표현식으로 지정합니다. Excel 스테이지에서 범위 표현식을 사용하여 추출할 데이터 범위를 지정할 수 있습니다.
예: Employee_Salary!A1:G8은 첫 번째 셀이 A1이고 마지막 셀이 Employee_Salary 스프레드시트의 G8인 데이터 범위를 설명합니다.
1 | A EMPNO
|
B FIRSTNAME
|
C LASTNAME
|
D DEPT
|
E 작업
|
F SALARY
|
G BONUS
|
---|---|---|---|---|---|---|---|
2 | 20 | MICHAEL | THOMPSON | B01 | 관리자 | 94250 | 800 |
3 | 6시간에서 30분 | SALLY | KWAN | C01 | 관리자 | 98250 | 800 |
4 | 60 | IRVING | STERN | D11 | 관리자 | 72250 | 500 |
5 | 70 | EVA | PULASKI | D21 | 관리자 | 96170 | 700 |
6 | 50 | JOHN | GEYER | E01 | 관리자 | 80175 | 800 |
7 | 90 | ELEEN | HENDERSON | E11 | 관리자 | 89750 | 600 |
8 | 100년 | THEODORE | SPENSER | E21 | 관리자 | 86150 | 500 |
Excel 단계는 지정된 데이터 범위의 Microsoft Excel 행과 열을 IBM® DataStage® 행과 열에 매핑하고 레코드를 추출합니다.
다음 표는 범위 표현식이 Employee_Salary인 경우 Excel 단계에서 추출되는 레코드에 대해 설명합니다!A2:G8.
EMPNO | FIRSTNAME | LASTNAME | DEPT | 작업 | SALARY | BONUS |
---|---|---|---|---|---|---|
20 | MICHAEL | THOMPSON | B01 | 관리자 | 94250 | 800 |
6시간에서 30분 | SALLY | KWAN | C01 | 관리자 | 98250 | 800 |
60 | IRVING | STERN | D11 | 관리자 | 72250 | 500 |
70 | EVA | PULASKI | D21 | 관리자 | 96170 | 700 |
50 | JOHN | GEYER | E01 | 관리자 | 80175 | 800 |
90 | ELEEN | HENDERSON | E11 | 관리자 | 89750 | 600 |
100년 | THEODORE | SPENSER | E21 | 관리자 | 86150 | 500 |
첫 번째 행의 셀 값을 IBM InfoSphere® DataStage 열 이름으로 사용하려는 경우 열 헤더 속성을 사용할 수 있습니다. 열 머리글 속성이 데이터 범위의 첫 번째 행으로 설정되고 범위 표현식을 Employee_Salary로 지정하면!A1:G8으로 지정하는 경우 첫 번째 행은 헤더로 처리되고 첫 번째 행에 있는 셀의 값은 작업에서 기본 DataStage 열 이름으로 사용됩니다. Excel 스테이지를 사용하여 설계 시 범위 표현식을 생성할 수 있습니다.
Microsoft Excel에서 추출할 수 있는 데이터 유형
Excel 스테이지를 사용하여 Microsoft Excel 파일에서 여러 유형의 데이터를 추출할 수 있습니다.
- 파일 특성
- 다음 표에는 파일 특성으로 추출할 수 있는 정보가 나열되어 있습니다.
표 3. 파일 특성으로 추출할 수 있는 데이터 데이터 설명 파일 이름 파일 이름입니다. 예를 들면 다음과 같습니다. Workbook1.xls 파일 경로 파일의 경로. 예를 들면 다음과 같습니다. C:\excel\Workbook1.xls 파일 크기 파일의 크기(바이트). 마지막 수정 날짜 파일이 마지막으로 수정된 날짜 및 시간.
- 문서 특성
- 다음 표에는 문서 특성으로 추출할 수 있는 정보가 나열되어 있습니다.
표 4. 문서 특성으로 추출할 수 있는 데이터 데이터 설명 작성자 문서 작성자. 문서 주석 문서의 주석. 컨텐츠 작성 날짜 문서가 작성된 날짜 및 시간. 키워드 문서의 키워드. 버전 번호 문서의 개정 번호. 제목 문서의 주제. 제목 문서의 제목. 회사 문서의 회사 특성 값. 카테고리 문서의 범주. 관리자 문서의 관리자. 사용자 정의 특성 문서의 사용자 정의 특성. 추출할 사용자 정의 특성의 이름을 지정해야 합니다.
- 시트 정보
- 다음 표에는 시트 정보로 추출할 수 있는 정보가 나열되어 있습니다.
표 5. 시트 정보로 추출할 수 있는 데이터 데이터 설명 시트 이름 Microsoft Excel 시트의 이름. 헤더(왼쪽, 가운데, 오른쪽) 지정된 위치의 헤더. 바닥글(왼쪽, 가운데, 오른쪽) 지정된 위치의 바닥글.
- 행 정보
- 다음 표에는 행 정보로 추출할 수 있는 정보가 나열되어 있습니다.
[표 6] 행 정보로 추출할 수 있는 데이터 데이터 설명 행 번호 시트 내에 있는 Microsoft Excel 행 번호. 첫 번째 행 번호는 1입니다. 숨겨짐 행이 숨겨져 있는지 여부. 이 행이 속하는 행 또는 시트가 숨겨져 있는 경우 true를 기록합니다.
- 셀 정보
- Microsoft Excel 열 또는 셀 위치를 기반으로 셀 정보를 추출할 수 있습니다. Microsoft Excel 열을 기반으로 셀 정보를 추출하는 경우 데이터 범위 내의 상대적 위치를 기준으로 소스 Microsoft Excel 열을 지정할 수 있습니다.
런타임 컬럼 사용
~ 안에 IBM DataStage 을 사용하면 나머지 작업을 통해 메타데이터에 정의되지 않은 추가 열을 전파하도록 작업을 구성할 수 있습니다. 이 프로세스는 RCP(Runtime Column Propagation)로 알려져 있습니다.
런타임 열 전파가 사용 가능한 경우 Excel 스테이지는 첫 번째 데이터 범위를 기반으로 Microsoft Excel 열을 전파합니다. 와일드카드 문자가 파일 이름에 사용되는 경우 표현식과 일치하는 첫 번째 파일이 사용됩니다. 숨겨진 열 특성의 설정은 숨겨진 열이 전파되는지 여부를 결정합니다. 전파된 각 Microsoft Excel 열에 해당하는 셀 값만을 추출합니다. 파일 이름, 시트 이름 또는 행 번호와 같은 정보를 추출하기 위해, 구성 창에 추가 컬럼을 정의할 수 있습니다.
열 이름 지정 규칙
IBM DataStage 열 이름은 첫 번째 데이터 범위의 Microsoft Excel 열 문자를 기준으로 지정됩니다. 열 이름 앞에는 "Column_"이 접두부로 지정되고 Microsoft Excel 열 문자가 옵니다. 예: Column_A, Column_B, Column_C 등.
작업에 이미 이름이 있는 열이 있는 경우 작업이 중지됩니다.
데이터 유형
Excel 스테이지에 의해 추가되는 모든 열은 정의되지 않은 길이의 유니코드 Varchar 유형입니다.