0 / 0
영어 버전 문서로 돌아가기
메타데이터 가져오기 설계
마지막 업데이트 날짜: 2024년 10월 10일
메타데이터 가져오기 설계

메타데이터를 가져올 때 가져올 메타데이터의 유형, 가져오기 대상 및 범위, 가져오기 작업을 스케줄할지 여부, 가져오기 동작을 사용자 정의하는 방법을 결정해야 합니다.

목표 가져오기

메타데이터를 가져올 때 첫 번째 단계는 가져오기 목표를 정의하는 것입니다. 가져올 메타데이터 유형과 가져온 에셋을 프로젝트에서 작업할지 아니면 카탈로그에 직접 게시할지 결정해야 합니다.

일반적으로 메타데이터 가져오기는 더 큰 데이터 큐레이션 계획의 일부입니다. 예를 들어, 데이터 자산에 대한 메타데이터를 가져온 후 메타데이터 강화를 실행하여 가져온 데이터 자산에 비즈니스 메타데이터를 추가할 수 있습니다. 데이터 품질 규칙을 실행할 수도 있습니다. 마지막으로 완료된 데이터 자원을 카탈로그에 공개하여 조직과 공유할 수 있습니다. 메타데이터 가져오기를 디자인하기 전에 전체 큐레이션 계획에 대한 선택사항의 영향을 이해해야 합니다. 큐레이션 계획을 참조하십시오.

예를 들어, 데이터 자산에 대한 일반적인 큐레이션 프로세스에는 다음 태스크가 포함됩니다.

  1. 자산 메타데이터 가져오기 옵션으로 메타데이터 가져오기를 실행하여 프로젝트에 데이터 자산을 추가합니다.
  2. 데이터 자산에서 메타데이터 강화를 실행하여 데이터를 프로파일링하고 기본 데이터 품질 분석을 수행하며 용어 지정을 통해 비즈니스 컨텍스트를 제공합니다.
  3. 자산에서 데이터 품질 규칙을 실행하십시오.
  4. 카탈로그에 자산을 공개하십시오.
  5. 계보 메타데이터 가져오기 옵션을 사용하여 동일한 데이터 자산에 대한 메타데이터 가져오기를 실행하여 카탈로그의 해당 자산에 계보 정보를 추가합니다.

메타데이터 강화 및 데이터 품질 평가를 적용할 수 없으므로 다른 유형의 자산을 카탈로그에 직접 추가할 수 있습니다. 에셋 메타데이터 가져오기 및 계보 메타데이터 가져오기 옵션을 모두 선택하여 카탈로그에 에셋을 추가하는 동안 에셋의 기술 및 계보 메타데이터를 동시에 가져올 수 있습니다.

다음 가져오기 방법 중에서 선택할 수 있습니다.

자산 메타데이터 가져오기
에셋 기술 메타데이터는 에셋 세부 정보, 관계 및 에셋 미리 보기에 대한 정보를 제공합니다. 추가 처리를 위해 프로젝트에 추가하거나 가져오기 후 바로 카탈로그에 게시할 수 있습니다.
계보 메타데이터 가져오기
리니지 메타데이터는 데이터의 흐름, 데이터의 출처, 데이터의 변화 방식, 데이터의 시간 경과에 따른 이동 경로에 대한 정보를 제공합니다. 리니지 메타데이터는 리니지 리포지토리에 저장됩니다.
Before you can import lineage metadata, you must configure data lineage. 자세한 내용은 데이터 계보 구성을 참조하세요.

가져오기 대상

작업 중인 프로젝트 또는 편집자 또는 관리자 역할이 있는 모든 카탈로그로 메타데이터를 가져올 수 있습니다.

프로젝트

프로젝트에서 데이터 자산에 대한 메타데이터 강화 및 데이터 품질 규칙을 실행할 수 있습니다. 비즈니스 메타데이터 지정 및 데이터 품질에 만족하면 가져온 데이터 자산을 카탈로그에 공개합니다.

리니지 정보는 카탈로그와 프로젝트에서 확인할 수 있습니다. 계보 정보는 Metadata import포트를 사용하여 에셋에 계보가 있는 경우에만 프로젝트에서 사용할 수 있습니다

프로젝트가 민감한 것으로 표시된 경우 카탈로그가 아닌 프로젝트로만 메타데이터를 가져올 수 있습니다. 자세한 내용은 프로젝트를 민감한 프로젝트로 표시하기를 참조하세요.

카탈로그

데이터 자산의 컨텐츠를 잘 알고 있고 메타데이터 강화 또는 데이터 품질 규칙을 실행하지 않으려는 경우 해당 메타데이터를 카탈로그에 직접 가져올 수 있습니다. 가져오기가 완료되면 선택한 카탈로그에서 에셋을 공개적으로 사용할 수 있습니다.

카탈로그가 민감한 것으로 표시된 프로젝트의 일부인 경우를 제외하고 편집자 또는 관리자 역할이 있는 모든 카탈로그로 메타데이터를 가져올 수 있습니다.

카탈로그로 가져오는 경우, 대상 카탈로그에 중복 자산을 허용하는 대신 원래 자산을 업데이트하도록 설정된 중복 자산 처리가 있는지 확인하십시오. 중복 자산 처리를 참조하십시오.

가져온 데이터 자산에 데이터 보호 규칙을 적용하려면 통제된 카탈로그를 가져오기 대상으로 선택해야 합니다.

데이터 소스

지원되는 데이터 소스 목록은 큐레이션 및 데이터 품질에 지원되는 데이터 소스를 참조하세요.

데이터 소스에 연결하려면 다음 세부 정보를 지정해야 합니다:

  • 데이터 소스 정의. 리니지 메타데이터를 가져올 때는 필수이며, 에셋 메타데이터를 가져올 때는 선택 사항입니다. 엔드포인트를 사용하여 데이터 소스를 고유하게 식별하는 데 사용됩니다. 엔드포인트에는 호스트 이름 또는 IP 주소, 포트 번호, 데이터베이스 이름 또는 인스턴스 식별자 등의 정보가 포함됩니다. 예를 들어 Microsoft SQL Server 데이터베이스가 여러 개 있는 경우 데이터 소스 정의는 그 중 하나를 식별합니다. 또는 Teradata 클러스터에 다양한 호스트 이름을 가진 여러 노드가 포함된 경우, 데이터 원본 정의는 전체 클러스터를 하나의 엔터티로 식별합니다. 자세한 내용은 데이터 소스 정의 만들기를 참조하세요.

  • 스캐너. 메타데이터를 추출하고 처리하여 계보를 생성하는 데 사용됩니다. 계보를 가져오는 데이터 소스에서 여러 기술의 메타데이터를 호스팅할 수 있는 경우 스캐너를 선택합니다. 예를 들어, Microsoft SQL Server 는 Microsoft SQL Server 통합 서비스의 메타데이터 저장소로 사용할 수 있습니다. 이 경우, 계보 메타데이터는 데이터베이스Microsoft SQL Server 또는 ETL 작업Microsoft SQL Server 통합 서비스)에서 가져올 수 있습니다. 특정 유형의 계보 메타데이터를 가져올 스캐너를 선택합니다.

  • 연결. 연결 세부 정보에는 자격 증명이 포함됩니다. 하나의 데이터 소스에 대해 여러 연결을 만들 수 있습니다(예: 다른 호스트 이름을 사용하여 연결하거나 특정 권한을 가진 다양한 사용자 계정에 연결). 특정 데이터 소스에 연결하는 데 필요한 자세한 내용은 커넥터 섹션의 각 연결 항목에 설명되어 있습니다. 자산 메타데이터를 가져올 때는 데이터 소스 정의 또는 연결 중 하나를 선택해야 합니다.

가져오기 범위

가져올 데이터의 범위를 결정합니다. 데이터 소스의 크기와 콘텐츠에 따라 모든 자산을 가져오지 않고 선택한 하위 집합만 가져올 수도 있습니다. 전체 스키마 또는 폴더를 포함하거나 개별 테이블이나 파일까지 드릴 다운할 수 있습니다. 스키마나 폴더를 선택하면 몇 개의 항목이 포함되어 있는지를 즉시 볼 수 있습니다. 따라서, 전체 세트를 포함할지 또는 서브세트가 용도에 더 적합한지를 결정할 수 있습니다.

이름에 특수 문자가 포함된 스키마에서는 데이터를 가져올 수 없습니다.

계보 메타데이터의 포함 및 제외 목록

계보 메타데이터를 추출할 범위를 정의할 때 추출에 포함하거나 추출에서 제외할 자산 목록을 추가할 수 있습니다. 이 목록은 일반적으로 정규식이며 형식은 선택한 데이터 원본에 따라 다릅니다. 자세한 내용은 커넥터 섹션의 특정 연결 항목을 참조하세요.

외부 입력

계보 메타데이터를 가져올 때 일부 데이터 소스에 대한 추가 수동 입력을 제공하여 최종 계보에 보다 완전한 데이터를 포함할 수 있습니다. 다음과 같은 옵션이 제공됩니다.

파일에서 입력 추가
일반적으로 특정 데이터 소스의 요구 사항을 충족하는 구조의 .zip 파일을 추가합니다. 구조 요구 사항은 커넥터 섹션의 각 연결 항목에 자세히 설명되어 있습니다.
외부 에이전트로부터 메타데이터 수집
에이전트 파일 시스템이나 Git 리포지토리에 수동으로 연결할 수 있습니다. 그런 다음 에셋을 다운로드하여 메타데이터 추출에 사용합니다.

자리 표시자 교체

계보에 외부 입력을 추가할 때 환경 변수와 같은 자리 표시자 값을 실제 값으로 대체하여 계보 분석에 사용할 수 있습니다. 다음 표에는 계보 분석을 위해 데이터 표시를 수정하는 방법에 대한 예가 나와 있습니다.

교체 범위 범위 처리 형식 플레이스홀더 값 대체 값
(정규식이 선택되지 않고 일반 텍스트가 사용됨) ${table_name} 고객
.*bteq 정규식 ${db} dwh

플레이스홀더 대체물을 제공하는 또 다른 방법은 CSV 파일을 만들어 외부 입력으로 업로드하는 .zip 파일에 추가하는 것입니다. 이 파일의 이름은 replace.csv 하며 다음과 같은 구조를 가져야 합니다:

"PLACEHOLDER","REPLACEMENT_VALUE"[,SCOPE]

여기서,

  • PLACEHOLDER is the value that you want to replace.
  • REPLACEMENT_VALUE is the new value that replaces the original value.
  • SCOPE is a filter to apply the replacement only on the selected assets. 이 열은 선택 사항입니다. 정규식으로 해석됩니다. 이 파일에서 사용할 수 있는 예제 경로는 \MyBD\MySchema\MyScript.sql.

각 교체 쌍은 별도의 줄에 배치해야 합니다. 각 값은 큰따옴표("")로 묶어야 합니다.

스케줄링 옵션

스케줄을 설정하지 않으면 메타데이터 가져오기 자산을 처음 저장할 때 가져오기를 실행합니다. 언제든지 가져오기를 수동으로 재실행할 수 있습니다.

가져오기를 특정 스케줄에 실행하기로 선택한 경우 작업을 실행할 날짜와 시간을 정의하십시오. 스케줄된 메타데이터 가져오기 및 동일한 자산에 대한 해당 메타데이터 강화 작업을 조정할 수 있습니다.

가져오기를 특정 스케줄에 실행하기로 선택한 경우 작업을 실행할 날짜와 시간을 정의하십시오. 단일 및 반복 실행을 스케줄할 수 있습니다. 단일 실행을 스케줄하는 경우 작업은 지정된 날짜 및 시간에 정확히 한 번 실행됩니다. 반복 실행을 예약하면 반복 섹션에 표시된 타임스탬프에 맞춰 작업이 처음으로 실행됩니다.

가져오기 작업의 기본 이름은 metadata_import_name 작업입니다. 메타데이터 가져오기를 설정할 때 이름 지정 스키마에 맞게 이름을 변경할 수 있습니다. 그러나 나중에 이름을 변경할 수는 없습니다. 메타데이터 가져오기 에셋 내에서 또는 프로젝트의 작업 페이지에서 생성한 가져오기 작업에 액세스할 수 있습니다. 작업을 참조하십시오.

메타데이터 가져오기 자산을 편집하여 메타데이터 가져오기의 스케줄을 업데이트할 수 있습니다.

리니지 가져오기 단계

리니지 메타데이터 가져오기는 여러 단계로 이루어지는 프로세스입니다. 필요에 맞게 가져오기를 최적화하기 위해 각 메타데이터 가져오기 작업에서 실행할 단계를 결정할 수 있습니다. 예를 들어 최근에 새로 고친 선택된 연결에서 추출 단계만 실행하여 성능을 개선할 수 있습니다. 이 단계가 완료되면 새로 고친 연결과 이전에 추출한 연결 등 모든 연결에 대해 분석을 실행할 수 있습니다.

다음 목록은 각 계보 가져오기 단계에서 어떤 프로세스가 실행되는지에 대한 간략한 설명입니다:

사전 추출
리니지 자산(테이블, 보기, 동의어 등)을 추출하여 리니지 리포지토리로 가져옵니다.
변환 추출
데이터 소스에서 변환의 정의를 추출합니다.
추출된 입력 분석
자동으로 추출된 변환에 대한 데이터 계보를 분석합니다.
외부 입력 수집
에이전트 파일 시스템 또는 Git 리포지토리에서 외부 입력을 수집합니다.
외부 입력 분석
메타데이터 가져오기 작업에서 수집하거나 업로드한 외부 입력에 대한 데이터 계보를 분석합니다.

고급 가져오기 옵션

메타데이터 가져오기를 다시 실행할 때 가져온 자산에 발생하는 상황 및 일반 가져오기 동작을 사용자 정의할 수 있습니다.

에셋 메타데이터 가져오기 옵션

특정 특성이 업데이트되지 않도록 방지
기본적으로 자산을 다시 가져올 때 모든 자산 특성이 업데이트됩니다. 리임포트 시 에셋 이름, 에셋 설명 또는 열 설명을 업데이트하지 않으려면 리임포트 시 업데이트 목록에서 해당 확인란의 선택을 취소하세요.
다시 가져오기에 포함되지 않은 기존 자산 삭제
기본적으로 가져오기를 다시 실행할 때 대상 프로젝트 또는 카탈로그에서 자산이 삭제되지 않습니다. 대상 프로젝트 또는 카탈로그를 정리하려면 다시 가져올 때 삭제 옵션에서 선택하십시오.
  • 데이터 소스에서 자산을 찾을 수 없거나 가져오기에서 제외된 경우: 이러한 경우 가져오기를 다시 실행할 때 가져오기 대상에서 이전에 가져온 자산을 삭제합니다:
    • 데이터 소스에서 해당 자산을 더 이상 사용할 수 없습니다.
    • 다시 실행할 때 가져오기에서 제외 설정이 변경되어 이제 자산이 가져오기에서 제외됩니다(관계형 데이터베이스에서 실행하는 메타데이터 가져오기에만 적용됨).
  • 가져오기 범위에서 제거된 자산: 가져오기를 다시 실행할 때 마지막 실행 후 이 메타데이터의 범위에서 제거된 자산을 가져오기 대상에서 삭제합니다.
특정 유형의 관계형 자산을 가져오지 않음

관계형 데이터베이스에서 실행하는 메타데이터 가져오기의 경우 가져오기에서 제외 설정에서 모든 유형의 관계형 자산을 가져올지 아니면 테이블 또는 뷰, 별칭, 동의어를 제외할지 선택할 수 있습니다. 이 옵션은 상호 배타적입니다.

추가 자산 특성 가져오기

관계형 데이터베이스에서 실행하는 메타데이터 가져오기의 경우 데이터베이스에 정의되어 있을 수 있는 기본 키 및 외래 키를 가져올지 여부를 선택할 수 있습니다.

추가 가져오기 옵션 사용

가져오기를 다시 실행할 때 새 데이터 자산 또는 수정된 데이터 자산만 가져오려면 증분 가져오기를 사용으로 설정하십시오. 이 옵션은 관계형 데이터베이스에서 실행하고 선택한 데이터 원본이 증분 가져오기를 지원하는 메타데이터 가져오기에만 사용할 수 있습니다:

데이터 소스에서 자산의 설명을 업데이트하거나 제거해도 자산의 수정 날짜는 변경되지 않습니다. 가져온 자산 목록에서 제거되는 자산의 경우에도 수정 날짜가 변경되지 않습니다. 따라서 이러한 자산은 증분 가져오기에 대해 고려되지 않습니다. 또한 데이터 소스 또는 범위에서 삭제된 자산은 증분 가져오기로 발견되지 않습니다. 따라서 이러한 자산은 제거됨 으로 표시되지 않거나 다시 가져올 때 삭제 설정으로 지정된 대로 삭제되지 않습니다. 이러한 변경사항이 반영되었는지 확인하려면 증분 가져오기를 사용 안함으로 설정하여 데이터 범위의 모든 자산을 다시 가져오십시오.

중요:

데이터 소스 및 Cloud Pak for Data 클라이언트 워크스테이션이 다른 시간대에 있는 경우 증분 가져오기가 작동하지 않을 수 있습니다. 클라이언트가 데이터 소스의 시간대보다 빠른 시간대에 있는 경우, 메타데이터 가져오기 작업은 마지막 가져오기 실행 이후에 추가되거나 수정된 자산을 발견하지 못할 수 있습니다. 이 경우 가져오기를 다시 실행할 때 모든 자산이 포함되도록 증분 가져오기를 사용 안함으로 설정하십시오.
증분 가져오기가 작동하려면 클라이언트의 시간대에 관계없이 데이터 소스가 GMT 시간대에 있어야 합니다.

데이터베이스 카탈로그에서 메타데이터 수집

관계형 데이터베이스에서 실행하는 메타데이터 가져오기의 경우 데이터베이스 카탈로그에서 메타데이터를 가져오도록 선택할 수 있습니다. 따라서 임포트를 실행하는 사용자는 데이터베이스 카탈로그에 대한 액세스 권한만 필요하지만 실제 데이터에 대한 SELECT 권한은 필요하지 않습니다. 가져온 자산을 프로파일링하거나 메타데이터 인리치먼트에서 사용할 수 없습니다.

자산 시간소인 가져오기

자산이 마지막으로 수정된 시간에 대한 정보를 포함할 수 있습니다. The metadata_modification_token attribute is added to the extended_metadata property of an asset.

계보 메타데이터 가져오기 옵션

계보에 대한 고급 옵션은 선택한 데이터 소스에 따라 다릅니다. 자세한 내용은 커넥터 섹션의 특정 연결 항목을 참조하세요.

자세한 정보

큐레이션 계획

상위 주제: 메타데이터 가져오기

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기