0 / 0
영어 버전 문서로 돌아가기

Cloud Pak for Data 위한 IBM DataStage 연결

마지막 업데이트 날짜: 2024년 12월 03일
Cloud Pak for Data 위한 IBM DataStage 연결

Cloud Pak for Data Data용 DataStage 데이터에 액세스하려면 해당 데이터에 대한 연결 자산을 만드세요.

Cloud Pak for Data DataStage 데이터를 이동하고 변환하는 작업을 설계, 개발 및 실행하기 위한 데이터 통합 도구입니다.

Cloud Pak for Data용 DataStage 연결 만들기

연결 자산을 만들려면 다음과 같은 연결 세부 정보가 필요합니다:

  • 호스트 이름 또는 IP 주소
  • 포트 번호
  • 자격 증명: 사용자 이름과 비밀번호 또는 API 키를 지정합니다
  • SSL 인증서(데이터베이스 서버에서 요구하는 경우). 예를 들어, DataStage Cloud Pak for Data 인스턴스가 메타데이터 가져오기 작업을 만들려는 프로젝트와 동일한 클러스터에 있지 않은 경우 인증서를 지정합니다.

플랫폼에 있는 위치를 기반으로 연결을 작성하는 방법 선택

프로젝트에서 '
' ' 자산 > 새 자산 > 데이터 소스에 연결'을 클릭합니다. 프로젝트에 연결 추가를 참조하십시오.

' Platform assets catalog '
' 클릭 ' 새 연결. 플랫폼 연결 추가를 참조하십시오.

다음 단계: 연결에서 계보 메타데이터 가져오기

메타데이터 가져오기를 실행하여 계보 데이터를 가져오고 계보 그래프에서 데이터가 어떻게 연결되는지 확인합니다. 메타데이터 가져오기를 참조하십시오.

이 연결의 사용처

다음 작업 영역 및 도구에서 ' DataStage '을 ' Cloud Pak for Data ' 연결에 사용할 수 있습니다:

Catalogs

  • Platform assets catalog

데이터 계보

  • Metadata import (lineage)IBM Knowledge Catalog 및 Manta Data Lineage)

Cloud Pak for Data for Data용 DataStage 대한 계보 메타데이터 가져오기 구성

DataStage Cloud Pak for Data 연결에 대한 메타데이터 가져오기를 생성할 때 이 데이터 소스에 특정한 옵션을 설정하고 계보가 생성되는 데이터의 범위를 정의할 수 있습니다. 메타데이터 가져오기에 대한 자세한 내용은 메타데이터 가져오기 디자인을 참조하세요.

DataStage for Cloud Pak for Data 대한 계보 메타데이터를 가져오려면 다음 단계를 완료하세요:

  1. 데이터 소스 정의를 만듭니다. 데이터 소스 유형으로 Cloud Pak for DataIBM DataStage 선택합니다.
  2. 프로젝트에서 데이터 소스에 대한 연결을 만듭니다.
    • Cloud Pak for Data DataStage 연결하려면 사용자 이름과 비밀번호를 입력합니다.
    • Cloud Pak for Data as a Service DataStage 연결하려면 API 키를 제공하세요. API 키가 없는 경우 탐색 메뉴에서 ' 관리 > 액세스(IAM) > ID 관리 > API 키 '로 이동하여 새 API 키를 생성하세요. 연결 세부 정보에서 토큰 값을 사용합니다.
    • DataStage Cloud Pak for Data 인스턴스가 메타데이터 가져오기 작업을 만들려는 프로젝트와 동일한 클러스터에 있지 않은 경우 인증서를 지정합니다.
  3. 메타데이터 가져오기를 만듭니다. 데이터용 Cloud Pak for Data 데이터 소스를 위한 DataStage 전용 옵션에 대해 자세히 알아보세요:
    • 범위를 정의할 때 전체 데이터 소스를 분석하거나 포함 및 제외 옵션을 사용하여 분석하려는 정확한 프로젝트와 흐름을 정의할 수 있습니다. 목록 포함 및 제외를 참조하세요.
    • 선택 사항으로 .zip 파일 형식으로 외부 입력을 제공할 수 있습니다. 파일에서 입력 추가 필드에 이 파일을 추가합니다. 추출된 데이터의 정의된 범위 외에 외부 입력을 추가하거나 외부 입력에서만 데이터를 가져올 수 있습니다. 외부 입력을 추가하려면 다음 단계를 완료하세요:
    1. .zip 파일을 외부 입력으로 준비합니다.
    2. .zip 파일을 프로젝트에 업로드합니다.
    3. 외부 입력만 사용하도록 가져오기를 구성합니다.

목록 포함 및 제외

플로우 레벨까지 자산을 포함하거나 제외할 수 있습니다. 프로젝트/흐름 형식으로 데이터베이스 및 스키마를 제공하세요. 각 부분은 정규식으로 평가됩니다. 데이터 소스에서 나중에 추가되는 자산도 목록에 지정된 조건과 일치하는 경우 포함되거나 제외됩니다. 예제 값:

  • myProject/: ' myProject ' 프로젝트의 모든 흐름.
  • 'myProject3/myFlow1: ' myFlow1 프로젝트의 ' myProject3 ' 흐름.

.zip 파일을 외부 입력으로 준비합니다

DataStage 플로우를 .zip 파일의 외부 입력으로 제공할 수 있습니다. 폴더의 구조는 다음과 같아야 합니다:

  • <project_export.zip> ' - .zip 파일로 내보낸 DataStage 프로젝트입니다.
  • DSParams ' - 해당되는 경우 프로젝트 또는 환경 수준 매개변수가 포함된 파일입니다. 이 파일은 프로젝트 디렉터리에서 가져올 수 있습니다.
  • datastageParameterOverride.txt ' - 작업에서 매개변수 집합을 사용하는 경우 매개변수 집합 오버라이드가 있는 파일입니다.
  • connection_definition/odbcConnectionDefinition.ini ' - ODBC 연결에 대한 연결 정의가 포함된 파일입니다. ODBC 연결의 정의는 DataStage XML 내보내기에 포함되지 않으므로 별도로 지정해야 합니다.
  • datastageComponentOverrides.csv ' - 컴포넌트 계보 오버라이드가 있는 파일입니다.
참고:.zip 파일로 된 프로젝트만 사용하려는 경우에도 프로젝트에 업로드하려면 이 프로젝트 .zip 파일을 다른 .zip 파일로 압축해야 합니다.

내보낸 DataStage 프로젝트의 .zip 파일 형식은
DataStage 프로젝트를 내보낼 때 다음과 같은 구조를 가져야 합니다:

  • assets' - 필수 폴더입니다.
    • .METADATA' - 필수 폴더입니다.
    • data_intg_flow.*.json' - 흐름에 대한 정보가 포함된 필수 파일입니다.
    • connection.*.json ' - 연결에 대한 정보가 포함된 선택적 파일입니다.
    • parameter_set.*.json ' - 매개변수 세트에 대한 정보가 포함된 선택적 파일입니다.
    • job.*.json ' - 작업에 대한 정보가 포함된 선택적 파일입니다.
    • job_run.*.json ' - 작업의 특정 실행에 대한 정보가 포함된 선택적 파일입니다.
    • data_intg_flow' - 필수 폴더입니다.
    • ' "schemas":[{ 문자열을 포함하지만 ' px_executables'로 끝나지 않는 파일 하나 이상 .
  • assettypes' - 필수 폴더입니다.
  • project.json' - 필수 파일입니다. ZIP 압축 해제로 인해 이 파일의 인스턴스가 여러 개 있을 수 있으며, 이는 올바른 현상입니다.

' datastageParameterOverride.txt 파일 형식
' datastageParameterOverride.txt ' 파일에는 다음과 같은 내용이 있습니다:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

' connection_definition/odbcConnectionDefinition.ini 파일 형식
' connection_definition/odbcConnectionDefinition.ini ' 파일에는 다음과 같은 내용이 있습니다. 각 연결에 대해 별도의 ' [Shortcut_Name] 섹션을 만듭니다.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • 바로가기_이름: 데이터 통합 도구에서 사용하는 연결 또는 데이터 서버의 이름입니다.
  • 연결 유형: 데이터 원본의 유형입니다.
  • connection_string: JDBC 연결 문자열 또는 시스템 ID(SID) 또는 호스트 이름과 같은 데이터베이스의 식별자입니다.
  • 서버_이름: 데이터 소스 유형에 따라 값이 달라집니다:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (이전 Sybase) 또는 Teradata: 서버 이름입니다.
    • FTP: 호스트 이름입니다.
    • Oracle 및 기타 데이터베이스: 값이 무시됩니다.
  • 데이터베이스_이름: 데이터 소스 유형에 따라 값이 달라집니다:
    • Oracle: 글로벌 데이터베이스 이름입니다.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (이전 Sybase), Teradata 및 기타 데이터베이스입니다: 기본 데이터베이스의 이름입니다.
    • user_name: 데이터베이스에 로그인하는 사용자의 이름입니다.

각 섹션의 매개변수 끝에 새 줄을 추가합니다.

' datastageComponentOverrides.csv 파일 형식
' datastageComponentOverrides.csv ' 파일에는 다음과 같은 내용이 있습니다:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

스테이지 경로는 ' Job/[Shared and Local containers optional]/Stage 형식입니다.

.zip 파일을 프로젝트에 업로드합니다

메타데이터 가져오기에서 .zip 파일을 사용하려면 메타데이터 가져오기를 생성하는 프로젝트에 파일을 추가해야 합니다.

  1. 프로젝트에서 자산 가져오기를 클릭합니다.
  2. 로컬 파일 섹션에서 데이터 자산을 클릭합니다.
  3. DataStage 프로젝트와 함께 .zip 파일을 추가합니다.

메타데이터 가져오기를 생성할 때 파일에서 입력 추가 단계에서 이 파일을 선택할 수 있습니다.

외부 입력만 사용하도록 가져오기를 구성합니다

' Cloud Pak for Data ' 인스턴스에 대해 연결된 ' DataStage '에서 직접 메타데이터를 가져오지 않고 제공된 외부 입력에서만 메타데이터를 가져오려면 다음 단계를 완료하세요:

  1. 파일에서 입력 추가 섹션에 .zip 파일을 추가하고 다음을 클릭합니다.
  2. 리니지 가져오기 단계 목록을 확장하고 변환 추출 단계를 비활성화합니다.

고급 가져오기 옵션

작업 실행 분석
작업 실행을 분석할지 여부를 지정합니다.
이후 작업 실행 분석
실행을 분석할 날짜를 지정합니다. 값이 비어 있으면 모든 실행이 분석됩니다. 예제 값: ' 1970/01/01 00:00:00.000.
작업을 개별적으로 분석
다른 실행이 연결된 경우에도 작업을 개별적으로 분석할지 여부를 지정합니다.
작업 없이 플로우 분석
작업이 없는 흐름을 분석할지 여부를 지정합니다.
Oracle 프록시 사용자 인증
Oracle 프록시 사용자 인증을 사용할 수 있습니다. 값을 ' true '로 설정하여 ' \"USERNAME[SCHEMA_OWNER]\" 형식의 Oracle 사용자 이름을 ' \"SCHEMA_OWNER\" ' 형식으로 변경합니다. 다른 경우에는 값을 ' false 으로 설정합니다.
값 파일
파라미터 세트에서 사용할 값 파일의 이름을 우선순위에 따라 지정합니다. 예를 들어, DEV1,TEST,PROD입니다.

자세한 정보

메타데이터 가져오기

상위 주제: 지원되는 연결