0 / 0

IBM DataStage Cloud Pak for Data 계보 구성의 경우

마지막 업데이트 날짜: 2025년 4월 15일
IBM DataStage Cloud Pak for Data 계보 구성의 경우

IBM DataStage 에서 Cloud Pak for Data 로 계보 메타데이터를 가져오려면 연결, 데이터 소스 정의 및 메타데이터 가져오기 작업을 생성합니다.

IBM DataStage 에 대한 계보 메타데이터를 Cloud Pak for Data 로 가져오려면 다음 단계를 완료합니다:

  1. 데이터 소스 정의를 만듭니다.
  2. 프로젝트에서 데이터 소스에 대한 연결을 만듭니다.
  3. 메타데이터 가져오기를 만듭니다.

데이터 원본 정의 만들기

데이터 소스 정의를 만듭니다. 데이터 소스 유형으로 Cloud Pak for Data 에 대해 IBM DataStage 을 선택합니다.

DataStage 에 대한 연결 만들기 Cloud Pak for Data

프로젝트에서 데이터 소스에 대한 연결을 만듭니다. 연결에 대한 자세한 내용은 Cloud Pak for Data 연결의 경우 DataStage 을 참조하세요.

  • Cloud Pak for Data 에 접속하려면 DataStage 에 접속하여 사용자 아이디와 비밀번호를 입력합니다.
  • Cloud Pak for Data as a Service 에 연결하려면 DataStage 에 접속하여 API 키를 입력합니다. API 키가 없으면 탐색 메뉴에서 관리 > 액세스(IAM) > ID 관리 > API 키로 이동하여 새 API 키를 만듭니다. 연결 세부 정보에서 토큰 값을 사용합니다.
  • DataStage for Cloud Pak for Data 인스턴스가 메타데이터 가져오기 작업을 만들려는 프로젝트와 동일한 클러스터에 있지 않은 경우 인증서를 지정합니다.

메타데이터 가져오기 만들기

메타데이터 가져오기를 만듭니다. Cloud Pak for Data 데이터 원본의 경우 DataStage 에 특정한 옵션에 대해 자세히 알아보세요:

목록 포함 및 제외

플로우 레벨까지 자산을 포함하거나 제외할 수 있습니다. 프로젝트/흐름 형식으로 데이터베이스 및 스키마를 제공하세요. 각 부분은 정규식으로 평가됩니다. 데이터 소스에서 나중에 추가되는 자산도 목록에 지정된 조건과 일치하는 경우 포함되거나 제외됩니다. 예제 값:

  • myProject/ myProject 프로젝트의 모든 흐름.
  • myProject3/myFlow1 myProject3 프로젝트의 흐름. myFlow1

외부 입력

선택 사항으로.zip 파일 형식으로 외부 입력을 제공할 수 있습니다. 파일에서 입력 추가 필드에 이 파일을 추가합니다. 추출된 데이터의 정의된 범위 외에 외부 입력을 추가하거나 외부 입력에서만 데이터를 가져올 수 있습니다. 외부 입력을 추가하려면 다음 단계를 완료하세요:

  1. .zip 파일을 외부 입력으로 준비합니다.
  2. .zip 파일을 프로젝트에 업로드합니다.
  3. 외부 입력만 사용하도록 가져오기를 구성합니다.

.zip 파일을 외부 입력으로 준비합니다

.zip 파일의 외부 입력으로 DataStage 흐름을 제공할 수 있습니다. 폴더의 구조는 다음과 같아야 합니다:

  • <project_export.zip> -.zip 파일로 내보낸 DataStage 프로젝트입니다.
  • DSParams - 해당되는 경우 프로젝트 또는 환경 수준 매개변수가 포함된 파일입니다. 이 파일은 프로젝트 디렉터리에서 가져올 수 있습니다.
  • datastageParameterOverride.txt - 작업에서 매개변수 집합을 사용하는 경우 매개변수 집합이 있는 파일이 재정의됩니다.
  • connection_definition/odbcConnectionDefinition.ini - ODBC 연결에 대한 연결 정의가 포함된 파일입니다. ODBC 연결의 정의는 DataStage XML 내보내기에 포함되어 있지 않으므로 별도로 지정해야 합니다.
  • datastageComponentOverrides.csv - 컴포넌트 계보 오버라이드가 있는 파일입니다.
참고:.zip 파일로 된 프로젝트만 사용하려는 경우에도 프로젝트에 업로드하려면 이 프로젝트.zip 파일을 다른.zip 파일로 압축해야 합니다.

내보낸 DataStage 프로젝트가 포함된.zip 파일의 형식 DataStage 프로젝트를 내보낼 때는 다음과 같은 구조를 가져야 합니다:

  • assets - 필수 폴더입니다.
    • .METADATA - 필수 폴더입니다.
    • data_intg_flow.*.json - 흐름에 대한 정보가 포함된 필수 파일입니다.
    • connection.*.json - 연결에 대한 정보가 포함된 선택적 파일입니다.
    • parameter_set.*.json - 매개변수 세트에 대한 정보가 포함된 선택적 파일입니다.
    • job.*.json - 작업에 대한 정보가 포함된 선택적 파일입니다.
    • job_run.*.json -작업의 특정 실행에 대한 정보가 포함된 선택적 파일입니다.
    • data_intg_flow - 필수 폴더입니다.
    • "schemas":[{ 문자열을 포함하지만 px_executables 으로 끝나지 않는 파일 하나 이상.
  • assettypes - 필수 폴더입니다.
  • project.json - 필수 파일입니다. ZIP 압축 해제로 인해 이 파일의 인스턴스가 여러 개 있을 수 있으며, 이는 올바른 현상입니다.

datastageParameterOverride.txt 파일 형식 datastageParameterOverride.txt 파일에는 다음과 같은 내용이 포함되어 있습니다:

[ENVIRONMENT]
PARAM1_NAME = "param1_value"
PARAM2_NAME = "param2_value"
PARAM3_NAME = "param3_value"
[PARAMETER_SET/parameter_set_name]
param4_name  = "default_param4_value"
param5_name  = "default_param5_value"
$PARAM3_NAME = "$PROJDEF"
[VALUE_FILE/parameter_set_name/value_file1_name]
param4_name  = "some_param4_value"
param5_name  = "some_param5_value"
$PARAM3_NAME = "some_param3_value"
[VALUE_FILE/parameter_set_name/value_file2_name]
param4_name  = "other_param4_value"
param5_name  = "other_param5_value"
$PARAM3_NAME = "other_param3_value"
[JOB/job1_name]
param6_name = "param6_value"
param7_name = "param7_value"
[JOB/job2_name]
param7_name = "param8_value"

connection_definition/odbcConnectionDefinition.ini 파일 형식 connection_definition/odbcConnectionDefinition.ini 파일에는 다음과 같은 내용이 포함되어 있습니다. 각 연결에 대해 별도의 [Shortcut_Name] 섹션을 만듭니다.

[<Shortcut_Name>]
Type=<connection_type>
Connection_String=<connection_string>
Server_Name=<server_name>
Database_Name=<database_name>
Schema_Name=<schema_name>
User_Name=<user_name>
  • 바로가기_이름 : 데이터 통합 도구에서 사용하는 연결 또는 데이터 서버의 이름입니다.
  • 연결 유형 : 데이터 원본의 유형입니다.
  • connection_string : JDBC 연결 문자열 또는 시스템 ID(SID) 또는 호스트 이름과 같은 데이터베이스의 식별자입니다.
  • 서버_이름 : 데이터 소스 유형에 따라 값이 달라집니다:
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (이전 Sybase ) 또는 Teradata : 서버 이름입니다.
    • FTP: 호스트 이름입니다.
    • Oracle 및 기타 데이터베이스: 값이 무시됩니다.
  • 데이터베이스_이름 : 데이터 소스 유형에 따라 값이 달라집니다:
    • Oracle : 글로벌 데이터베이스 이름입니다.
    • Db2, Microsoft SQL Server, Netezza Performance Server, SAP ASE (이전 Sybase ), Teradata, 기타 데이터베이스: 기본 데이터베이스의 이름입니다.
    • user_name : 데이터베이스에 로그인하는 사용자의 이름입니다.

각 섹션의 매개변수 끝에 새 줄을 추가합니다.

datastageComponentOverrides.csv 파일 형식 datastageComponentOverrides.csv 파일에는 다음과 같은 내용이 포함되어 있습니다:

"Full path to Stage";"Input Link name";"Input Column name";"Output Link name";"Output Column name";"Edge Type (DIRECT | FILTER)";"Description (optional)"
"manual_mapping_job/Generic_3";"DSLink2";"a";"DSLink5";"b";"DIRECT";""

스테이지 경로는 Job/[Shared and Local containers optional]/Stage 형식입니다.

.zip 파일을 프로젝트에 업로드합니다

메타데이터 가져오기에서.zip 파일을 사용하려면 메타데이터 가져오기를 생성하는 프로젝트에 파일을 추가해야 합니다.

  1. 프로젝트에서 자산 가져오기를 클릭합니다.
  2. 로컬 파일 섹션에서 데이터 자산을 클릭합니다.
  3. DataStage 프로젝트에.zip 파일을 추가합니다.

메타데이터 가져오기를 생성할 때 파일에서 입력 추가 단계에서 이 파일을 선택할 수 있습니다.

외부 입력만 사용하도록 가져오기를 구성합니다

Cloud Pak for Data 인스턴스의 경우 연결된 DataStage 에서 직접 가져오지 않고 제공된 외부 입력에서만 메타데이터를 가져오려면 다음 단계를 완료하세요:

  1. 파일에서 입력 추가 섹션에.zip 파일을 추가하고 다음을 클릭합니다.
  2. 리니지 가져오기 단계 목록을 확장하고 변환 추출 단계를 비활성화합니다.

고급 가져오기 옵션

작업 실행 분석
작업 실행을 분석할지 여부를 지정합니다.
이후 작업 실행 분석
실행을 분석할 날짜를 지정합니다. 값이 비어 있으면 모든 실행이 분석됩니다. 예제 값: 1970/01/01 00:00:00.000.
작업을 개별적으로 분석
다른 실행이 연결된 경우에도 작업을 개별적으로 분석할지 여부를 지정합니다.
작업 없이 플로우 분석
작업이 없는 흐름을 분석할지 여부를 지정합니다.
Oracle 프록시 사용자 인증
Oracle 프록시 사용자 인증을 사용할 수 있습니다. 값을 true 로 설정하여 \"USERNAME[SCHEMA_OWNER]\" 형식의 Oracle 사용자 아이디를 \"SCHEMA_OWNER\" 형식으로 변경합니다. 다른 경우에는 값을 false 으로 설정합니다.
값 파일
파라미터 세트에서 사용할 값 파일의 이름을 우선순위에 따라 지정합니다. 예를 들어, DEV1,TEST,PROD입니다.

자세한 정보

상위 주제: 계보 가져오기에 지원되는 커넥터