메타데이터를 가져올 때는 가져올 메타데이터 유형, 가져오기 대상 및 범위, 가져오기 작업 예약 여부, 가져오기 동작을 사용자 지정할 방법을 결정해야 합니다.
목표 가져오기
메타데이터를 가져올 때 첫 번째 단계는 가져오기 목표를 정의하는 것입니다. 가져올 메타데이터 유형과 가져온 에셋을 프로젝트에서 작업할지 아니면 카탈로그에 직접 게시할지 결정해야 합니다.
일반적으로 메타데이터 가져오기는 더 큰 데이터 큐레이션 계획의 일부입니다. 예를 들어, 데이터 자산의 메타데이터를 가져온 후 메타데이터 보강을 실행하여 가져온 데이터 자산에 비즈니스 메타데이터를 추가할 수 있습니다. 데이터 품질 규칙을 실행할 수도 있습니다. 마지막으로 완성된 데이터 자산을 카탈로그에 게시하여 조직과 공유할 수 있습니다. 메타데이터 가져오기를 디자인하기 전에 선택한 항목이 전체 큐레이션 계획에 미치는 영향을 이해해야 합니다. 큐레이션 계획을 참조하세요.
예를 들어, 데이터 자산에 대한 일반적인 큐레이션 프로세스에는 다음과 같은 작업이 포함됩니다:
- 자산 메타데이터 가져오기 옵션으로 메타데이터 가져오기를 실행하여 프로젝트에 데이터 자산을 추가합니다.
- 데이터 자산에서 메타데이터 보강을 실행하여 데이터를 프로파일링하고, 기본적인 데이터 품질 분석을 수행하고, 용어 할당을 통해 비즈니스 컨텍스트를 제공하세요.
- 에셋에서 데이터 품질 규칙을 실행합니다.
- 카탈로그에 에셋을 게시합니다.
- 계보 메타데이터 가져오기 옵션을 사용하여 동일한 데이터 자산에 대한 메타데이터 가져오기를 실행하여 카탈로그의 해당 자산에 계보 정보를 추가합니다.
메타데이터 보강 및 데이터 품질 평가는 적용되지 않으므로 다른 유형의 자산을 카탈로그에 직접 추가할 수 있습니다. 에셋 메타데이터 가져오기 및 계보 메타데이터 가져오기 옵션을 모두 선택하여 카탈로그에 에셋을 추가하는 동안 에셋의 기술 및 계보 메타데이터를 동시에 가져올 수 있습니다.
다음 가져오기 방법 중에서 선택할 수 있습니다:
- 자산 메타데이터 가져오기
- 에셋 기술 메타데이터는 에셋 세부 정보, 관계 및 에셋 미리 보기에 대한 정보를 제공합니다. 추가 처리를 위해 프로젝트에 추가하거나 가져온 후 즉시 카탈로그에 게시할 수 있습니다.
- 계보 메타데이터 가져오기
- 리니지 메타데이터는 데이터의 흐름, 데이터의 출처, 데이터의 변화, 시간에 따른 데이터의 이동 경로에 대한 정보를 제공합니다. 리니지 메타데이터는 리니지 리포지토리에 저장됩니다.
가져오기 대상
작업 중인 프로젝트 또는 편집자 또는 관리자 역할이 있는 모든 카탈로그로 메타데이터를 가져올 수 있습니다.
프로젝트
프로젝트에서 데이터 자산에 대한 메타데이터 강화 및 데이터 품질 규칙을 실행할 수 있습니다. 가져온 데이터 자산의 비즈니스 메타데이터 할당과 데이터 품질에 만족하면 가져온 데이터 자산을 카탈로그에 게시합니다.
리니지 정보는 카탈로그와 프로젝트에서 확인할 수 있습니다. Metadata import포트를 사용하여 에셋에 계보가 있는 경우에만 프로젝트에서 계보 정보를 사용할 수 있습니다.
프로젝트가 민감한 것으로 표시된 경우 카탈로그가 아닌 프로젝트로만 메타데이터를 가져올 수 있습니다. 자세한 내용은 프로젝트를 민감한 프로젝트로 표시하기를 참조하세요.
카탈로그
데이터 자산의 내용을 잘 알고 있고 메타데이터 보강 또는 데이터 품질 규칙을 실행하지 않으려는 경우, 해당 메타데이터를 카탈로그로 직접 가져올 수 있습니다. 가져오기가 완료되면 선택한 카탈로그에서 에셋을 공개적으로 사용할 수 있습니다.
카탈로그가 민감한 것으로 표시된 프로젝트의 일부인 경우를 제외하고 편집자 또는 관리자 역할이 있는 모든 카탈로그로 메타데이터를 가져올 수 있습니다.
카탈로그로 가져오는 경우 대상 카탈로그에 중복 자산 처리가 중복 자산을 허용하는 대신 원본 자산을 업데이트하도록 설정되어 있는지 확인합니다. 중복 자산 처리를 참조하세요.
가져온 데이터 자산에 데이터 보호 규칙을 적용하려면 관리되는 카탈로그를 가져오기 대상으로 선택해야 합니다.
데이터 소스
지원되는 데이터 소스 목록은 큐레이션 및 데이터 품질에 지원되는 데이터 소스를 참조하세요.
데이터 소스에 연결하려면 다음 세부 정보를 지정해야 합니다:
데이터 소스 정의. 리니지 메타데이터를 가져올 때는 필수이며, 에셋 메타데이터를 가져올 때는 선택 사항입니다. 엔드포인트를 사용하여 데이터 소스를 고유하게 식별하는 데 사용됩니다. 엔드포인트에는 호스트 이름 또는 IP 주소, 포트 번호, 데이터베이스 이름 또는 인스턴스 식별자 등의 정보가 포함됩니다. 예를 들어 Microsoft SQL Server 데이터베이스가 여러 개 있는 경우 데이터 소스 정의는 그 중 하나를 식별합니다. 또는 Teradata 클러스터에 다양한 호스트 이름을 가진 여러 노드가 포함된 경우, 데이터 원본 정의는 전체 클러스터를 하나의 엔터티로 식별합니다. 자세한 내용은 데이터 소스 정의 만들기를 참조하세요. 메타데이터 가져오기를 시작하기 전에 데이터 소스 정의를 만듭니다.
스캐너. 메타데이터를 추출하고 처리하여 계보를 생성하는 데 사용됩니다. 계보를 가져오는 데이터 소스에서 여러 기술의 메타데이터를 호스팅할 수 있는 경우 스캐너를 선택합니다. 예를 들어, Microsoft SQL Server 는 Microsoft SQL Server 통합 서비스의 메타데이터 저장소로 사용할 수 있습니다. 이 경우, 계보 메타데이터는 데이터베이스Microsoft SQL Server 또는 ETL 작업Microsoft SQL Server 통합 서비스)에서 가져올 수 있습니다. 특정 유형의 계보 메타데이터를 가져올 스캐너를 선택합니다.
연결. 연결 세부 정보에는 자격 증명이 포함됩니다. 하나의 데이터 소스에 대해 여러 연결을 만들 수 있습니다(예: 다른 호스트 이름을 사용하여 연결하거나 특정 권한을 가진 다양한 사용자 계정에 연결). 특정 데이터 소스에 연결하는 데 필요한 자세한 내용은 커넥터 섹션의 각 연결 항목에 설명되어 있습니다. 자산 메타데이터를 가져올 때는 데이터 소스 정의 또는 연결 중 하나를 선택해야 합니다. 메타데이터 가져오기를 시작하기 전에 연결을 만듭니다. 데이터를 가져오려는 프로젝트에서 연결을 만들거나 플랫폼 연결을 만든 다음 프로젝트에 추가할 수 있습니다. 자세한 내용은 프로젝트에서 데이터 원본에 연결 추가하기를 참조하세요.
연결은 데이터 원본 정의에 할당되어야 합니다. 먼저 데이터 소스 정의를 만든 다음 연결을 만드는 경우 수동으로 할당을 만듭니다. 새 또는 기존 데이터 소스 정의에 엔드포인트 추가하기를 참조하세요.
가져오기 범위
가져올 데이터의 범위를 결정합니다. 데이터 소스의 크기와 콘텐츠에 따라 모든 자산을 가져오지 않고 선택한 하위 집합만 가져올 수도 있습니다. 전체 스키마 또는 폴더를 포함하거나 개별 테이블이나 파일까지 드릴 다운할 수 있습니다. 스키마나 폴더를 선택하면 몇 개의 항목이 포함되어 있는지를 즉시 볼 수 있습니다. 따라서, 전체 세트를 포함할지 또는 서브세트가 용도에 더 적합한지를 결정할 수 있습니다.
이름에 특수 문자가 포함된 스키마에서는 데이터를 가져올 수 없습니다.
계보 메타데이터의 포함 및 제외 목록
계보 메타데이터를 추출할 범위를 정의할 때 추출에 포함하거나 추출에서 제외할 자산 목록을 추가할 수 있습니다. 이 목록은 일반적으로 정규식이며 형식은 선택한 데이터 원본에 따라 다릅니다. 자세한 내용은 커넥터 섹션의 특정 연결 항목을 참조하세요.
외부 입력
계보 메타데이터를 가져올 때 일부 데이터 소스에 대한 추가 수동 입력을 제공하여 최종 계보에 보다 완전한 데이터를 포함할 수 있습니다. 다음과 같은 옵션이 제공됩니다.
- 파일에서 입력 추가
- 일반적으로 특정 데이터 소스의 요구 사항을 충족하는 구조의 .zip 파일을 추가합니다. 구조 요구 사항은 커넥터 섹션의 각 연결 항목에 자세히 설명되어 있습니다.
- 외부 에이전트로부터 메타데이터 수집
- 에이전트 파일 시스템이나 Git 리포지토리에 수동으로 연결할 수 있습니다. 그런 다음 에셋을 다운로드하여 메타데이터 추출에 사용합니다.
플레이스홀더 대체
계보에 외부 입력을 추가할 때 환경 변수와 같은 자리 표시자 값을 실제 값으로 대체하여 계보 분석에 사용할 수 있습니다. 다음 표에는 계보 분석을 위해 데이터 표시를 수정하는 방법에 대한 예가 나와 있습니다.
대체 범위 | 범위 처리 형식 | 플레이스홀더 값 | 대체 값 |
---|---|---|---|
(정규식이 선택되지 않고 일반 텍스트가 사용됨) | ${table_name} | 고객 | |
.*bteq | 정규식 | ${db} | dwh |
플레이스홀더 대체물을 제공하는 또 다른 방법은 CSV 파일을 만들어 외부 입력으로 업로드하는 .zip 파일에 추가하는 것입니다. 이 파일의 이름은 ' replace.csv
'이어야 하며 다음과 같은 구조를 가져야 합니다:
"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]
여기서,
PLACEHOLDER
'은 바꾸려는 값입니다.REPLACEMENT_VALUE
'은 원래 값을 대체하는 새 값입니다.SCOPE
'은 선택한 에셋에만 교체를 적용하는 필터입니다. 이 열은 선택 사항입니다. 정규식으로 해석됩니다. 이 파일에서 사용할 수 있는 예제 경로는 '\MyBD\MySchema\MyScript.sql
입니다.
각 교체 쌍은 별도의 줄에 배치해야 합니다. 각 값은 큰따옴표("")로 묶어야 합니다.
스케줄링 옵션
일정을 설정하지 않으면 메타데이터 가져오기 에셋을 처음 저장할 때 가져오기를 실행합니다. 언제든지 가져오기를 수동으로 재실행할 수 있습니다.
가져오기를 특정 스케줄에 실행하기로 선택한 경우 작업을 실행할 날짜와 시간을 정의하십시오. 동일한 자산에 대해 예약된 메타데이터 가져오기와 해당 메타데이터 보강 작업을 조정하고 싶을 수 있습니다.
가져오기를 특정 스케줄에 실행하기로 선택한 경우 작업을 실행할 날짜와 시간을 정의하십시오. 단일 및 반복 실행을 스케줄할 수 있습니다. 단일 실행을 예약하면 지정된 날짜와 시간에 정확히 한 번만 작업이 실행됩니다. 반복 실행을 예약하면 반복 섹션에 표시된 타임스탬프에 맞춰 작업이 처음으로 실행됩니다.
가져오기 작업의 기본 이름은 메타데이터_임포트_이름 작업입니다. 메타데이터 가져오기를 설정할 때 이름 지정 스키마에 맞게 이름을 변경할 수 있습니다. 하지만 나중에 이름을 변경할 수는 없습니다. 메타데이터 가져오기 에셋 내에서 또는 프로젝트의 작업 페이지에서 생성한 가져오기 작업에 액세스할 수 있습니다. 작업을 참조하십시오.
메타데이터 가져오기 자산을 편집하여 메타데이터 가져오기 일정을 업데이트할 수 있습니다.
계보 가져오기 단계
리니지 메타데이터 가져오기는 여러 단계로 이루어지는 프로세스입니다. 필요에 맞게 가져오기를 최적화하기 위해 각 메타데이터 가져오기 작업에서 실행할 단계를 결정할 수 있습니다. 예를 들어 최근에 새로 고친 선택된 연결에서 추출 단계만 실행하여 성능을 개선할 수 있습니다. 이 단계가 완료되면 새로 고친 연결과 이전에 추출한 연결 등 모든 연결에 대해 분석을 실행할 수 있습니다.
다음 목록은 각 계보 가져오기 단계에서 어떤 프로세스가 실행되는지에 대한 간략한 설명입니다:
- 사전 추출
- 계보 자산(테이블, 보기, 동의어 등)을 추출하여 계보 저장소로 가져옵니다.
- 변환 추출
- 데이터 소스에서 변환의 정의를 추출합니다.
- 추출된 입력 분석
- 자동으로 추출된 변환에 대한 데이터 계보를 분석합니다.
- 외부 입력 수집
- 에이전트 파일 시스템 또는 Git 저장소에서 외부 입력을 수집합니다.
- 외부 입력 분석
- 메타데이터 가져오기 작업에서 수집하거나 업로드한 외부 입력에 대한 데이터 계보를 분석합니다.
고급 가져오기 옵션
일반적인 가져오기 동작과 메타데이터 가져오기를 다시 실행할 때 가져온 에셋에 어떤 일이 발생하는지 사용자 지정할 수 있습니다.
에셋 메타데이터 가져오기 옵션
- 특정 속성 업데이트 방지
- 기본적으로 에셋을 리임포트하면 모든 에셋 프로퍼티가 업데이트됩니다. 리임포트 시 에셋 이름, 에셋 설명 또는 열 설명을 업데이트하지 않으려면 리임포트 시 업데이트 목록에서 각각의 확인란을 선택 취소하세요.
- 리임포트에 포함되지 않은 기존 에셋을 삭제합니다
- 기본적으로 가져오기를 다시 실행할 때 대상 프로젝트 또는 카탈로그에서 자산은 삭제되지 않습니다. 대상 프로젝트 또는 카탈로그를 정리하려면 리임포트 시 삭제 옵션에서 선택합니다.
- 데이터 소스에서 자산을 찾을 수 없거나 가져오기에서 제외된 경우: 이러한 경우 가져오기를 다시 실행할 때 가져오기 대상에서 이전에 가져온 자산을 삭제합니다:
- 데이터 소스에서 해당 자산을 더 이상 사용할 수 없습니다.
- 다시 실행할 때 가져오기에서 제외 설정이 변경되어 이제 자산이 가져오기에서 제외됩니다(관계형 데이터베이스에서 실행하는 메타데이터 가져오기에만 적용됨).
- 가져오기 범위에서 제거된 자산: 가져오기를 다시 실행할 때 마지막 실행 후 이 메타데이터의 범위에서 제거된 자산을 가져오기 대상에서 삭제합니다.
- 데이터 소스에서 자산을 찾을 수 없거나 가져오기에서 제외된 경우: 이러한 경우 가져오기를 다시 실행할 때 가져오기 대상에서 이전에 가져온 자산을 삭제합니다:
- 특정 유형의 관계형 자산을 가져오지 마십시오
관계형 데이터베이스에서 실행하는 메타데이터 가져오기의 경우 가져오기에서 제외 설정에서 모든 유형의 관계형 자산을 가져올지 아니면 테이블 또는 뷰, 별칭, 동의어를 제외할지 여부를 선택할 수 있습니다. 이 옵션은 상호 배타적입니다.
- 추가 자산 속성 가져오기
관계형 데이터베이스에서 실행하는 메타데이터 가져오기의 경우 데이터베이스에 정의되어 있을 수 있는 기본 키 및 외래 키를 가져올지 여부를 선택할 수 있습니다.
- 추가 가져오기 옵션 활성화
가져오기를 다시 실행할 때 증분 가져오기를 활성화하면 새 데이터 자산 또는 수정된 데이터 자산만 가져올 수 있습니다. 이 옵션은 관계형 데이터베이스에서 실행하고 선택한 데이터 원본이 증분 가져오기를 지원하는 메타데이터 가져오기에만 사용할 수 있습니다:
- Amazon RDS for Oracle
- IBM Db2
- IBM Db2 Big SQL
- IBM Db2 on Cloud
- IBM Netezza Performance Server
- IBM Data Virtualization
- Microsoft Azure SQL Database
- Microsoft SQL Server
- Oracle
- Teradata
데이터 소스에서 자산의 설명을 업데이트하거나 제거해도 자산의 수정 날짜는 변경되지 않습니다. 가져온 에셋 목록에서 제거된 에셋의 수정 날짜도 변경되지 않습니다. 따라서 이러한 자산은 증분 수입에 고려되지 않습니다. 또한 데이터 소스 또는 범위에서 삭제된 자산은 증분 가져오기에서는 감지되지 않습니다. 따라서 이러한 에셋은 리임포트 시 삭제 설정에 지정된 대로 제거됨 또는 삭제됨으로 표시되지 않습니다. 이러한 변경 사항을 반영하려면 증분 가져오기를 비활성화하여 데이터 범위의 모든 자산을 다시 가져오세요.
중요:데이터 원본과 Cloud Pak for Data 클라이언트 워크스테이션이 서로 다른 시간대에 있는 경우 증분 가져오기가 작동하지 않을 수 있습니다. 클라이언트가 데이터 소스의 표준 시간대보다 앞선 표준 시간대에 있는 경우 메타데이터 가져오기 작업에서 마지막 가져오기 실행 이후에 추가되거나 수정된 자산을 감지하지 못할 수 있습니다. 이 경우 가져오기를 다시 실행할 때 모든 에셋이 포함되도록 증분 가져오기를 비활성화합니다.
증분 가져오기가 작동하려면 데이터 원본이 클라이언트의 표준 시간대에 관계없이 GMT 표준 시간대여야 합니다.- 데이터베이스 카탈로그에서 메타데이터 수집
관계형 데이터베이스에서 실행하는 메타데이터 가져오기의 경우 데이터베이스 카탈로그에서 메타데이터를 가져오도록 선택할 수 있습니다. 따라서 가져오기를 실행하는 사용자는 데이터베이스 카탈로그에 대한 액세스 권한만 있으면 되고 실제 데이터에 대한 SELECT 권한은 필요하지 않습니다. 가져온 자산을 프로파일링하거나 메타데이터 인리치먼트에서 사용할 수 없습니다.
- 자산 시간소인 가져오기
자산이 마지막으로 수정된 시간에 대한 정보를 포함할 수 있습니다. '
metadata_modification_token
' 속성이 에셋의 'extended_metadata
' 속성에 추가됩니다.
계보 메타데이터 가져오기 옵션
계보에 대한 고급 옵션은 선택한 데이터 소스에 따라 다릅니다. 자세한 내용은 커넥터 섹션의 특정 연결 항목을 참조하세요.
자세한 정보
상위 주제: 메타데이터 가져오기