기술 메타데이터를 가져와서 프로젝트 또는 카탈로그에 데이터 자산을 추가할 수 있습니다. 프로젝트에서 카탈로그에 공개하기 전에 데이터를 준비하고 분석할 수 있습니다.
카탈로그에 공개하기 전에 데이터를 준비하고 분석하기 위해 메타데이터를 데이터 자산으로 프로젝트에 가져오십시오. 메타데이터 강화를 실행하여 비즈니스 컨텍스트를 제공하기 위해 이러한 데이터 자산을 프로파일링하고, 데이터 품질을 분석하고, 용어를 지정합니다. 더 깊은 품질 분석을 수행하려면 데이터 자산에서 데이터 품질 규칙을 실행하십시오. 추가 준비 없이 데이터를 공유할 준비가 된 경우 카탈로그에 직접 데이터 자산을 추가할 수도 있습니다.
사용자 인터페이스 대신 API를 사용하여 지원되는 연결 목록을 검색하거나 메타데이터 가져오기 자산을 작성할 수 있습니다. 이러한 API에 대한 링크는 자세히 보기 섹션에 나열되어 있습니다.
- 자산 유형
외부 데이터 소스에 대한 연결의 테이블 또는 파일을 나타내는 데이터 자산입니다.
참고: Microsoft Excel 워크북의 경우 각 시트를 별도의 데이터 자산으로 가져옵니다. 데이터 자산 이름은 Excel 시트의 이름과 같습니다.- 지원되는 연결
지원되는 커넥터의 Metadata import 열을 참조하십시오.
- 필수 권한
메타데이터 가져오기를 작성, 관리 및 실행하려면 다음 역할 및 권한이 있어야 합니다.
- 프로젝트의 관리 또는 편집자 역할.
- 자산을 가져오거나 공개할 카탈로그의 관리 또는 편집자 역할입니다.
- 가져올 데이터 자산의 데이터 소스에 대한 연결 및 SELECT 또는 해당 데이터베이스에 대한 유사한 권한에 대한 액세스.
개요
발견을 위한 메타데이터 가져오기에는 다음 프로세스가 포함됩니다.
- 가져오려는 데이터 소스를 식별하십시오. 이 데이터 소스에 대한 연결이 이미 정의되어 있을 수도 있습니다. 그렇지 않으면 이에 대한 인증 정보가 있는지 확인하십시오. 지원되는 연결 목록은 지원되는 커넥터를 참조하십시오.
- 프로젝트에서 메타데이터 가져오기 자산을 작성하여 가져오기의 범위, 대상 및 가져오기 작업의 스케줄과 같은 가져오기 세부사항을 구성하십시오.
- 자산을 프로젝트나 카탈로그로 가져오십시오. 가져온 데이터 자산에 액세스하면 데이터는 데이터 소스에서 동적으로 검색됩니다.
- 프로젝트에 가져온 메타데이터를 분석하고 미리보고 카탈로그에 공유하십시오. 각 자산의 프로파일 탭에서 한 번에 하나씩 개별 자산에 대한 프로파일을 작성할 수 있습니다. 또한 여러 데이터 자산에 대한 프로파일을 병렬로 작성하고 메타데이터 강화 자산을 작성하고 실행하여 비즈니스 컨텍스트를 추가할 수 있습니다.
외부 소스에서 프로젝트로 자산 메타데이터를 가져오는 방법을 보려면 이 짧은 비디오를 보십시오.
이 비디오는 이 문서의 개념 및 태스크를 학습하기 위한 시각적 방법을 제공합니다.
메타데이터 가져오기 자산 작성 및 메타데이터 가져오기
메타데이터 가져오기 자산 및 메타데이터를 프로젝트 또는 카탈로그로 가져오기 위한 작업을 작성하려면 다음을 수행하십시오.
프로젝트를 열고 프로젝트의 유산 페이지를 클릭하고 새 자산 > 데이터 자산에 대한 메타데이터 가져오기 .
메타데이터 가져오기의 이름을 지정하십시오. 또는 설명을 입력할 수도 있습니다.
선택사항: 검색을 단순화하기 위해 메타데이터 가져오기 자산에 지정할 태그를 선택하십시오. 태그 이름을 입력하고 Enter를 눌러서 새 태그를 작성할 수 있습니다.
가져오기 대상을 선택하십시오. 작업 중인 프로젝트 또는 사용자가 구성원인 카탈로그로 메타데이터를 가져올 수 있습니다.
다른 사용자가 작업할 수 있도록 어떤 자산을 카탈로그에 공유할지를 선택하기 전에 메타데이터를 분석을 위해 프로젝트로 가져옵니다. 프로젝트에서 가져온 데이터 자산에 대해 메타데이터 강화 및 데이터 품질 규칙을 실행할 수 있습니다.
데이터 자산의 컨텐츠도 알고 있는 경우에는 메타데이터를 카탈로그 직접 가져올 수 있습니다.
프로젝트가 민감한 것으로 표시된 경우에는 카탈로그가 아닌 프로젝트로만 가져올 수 있습니다.
메타데이터 가져오기의 범위를 지정하십시오.
기존 연결 자산을 데이터의 소스로 선택하거나 새 연결 작성 및 연결 자산 작성을 클릭하십시오. 지원되는 커넥터에 나열된 데이터 소스에서 메타데이터를 가져올 수 있습니다.
가져오기에 포함할 항목을 선택하고 선택을 클릭하십시오. 데이터 소스의 크기와 컨텐츠에 따라서 모든 자산이 아니라 선택한 서브세트만을 가져오고 싶을 수도 있습니다. 전체 스키마 또는 폴더를 포함하거나 개별 테이블이나 파일까지 드릴 다운할 수 있습니다. 스키마나 폴더를 선택하면 몇 개의 항목이 포함되어 있는지를 즉시 볼 수 있습니다. 따라서, 전체 세트를 포함할지 또는 서브세트가 용도에 더 적합한지를 결정할 수 있습니다.
이름에 특수 문자가 포함된 스키마에서는 데이터를 가져올 수 없습니다.
선택된 범위를 검토하십시오. 데이터 범위에서 직접 자산을 삭제하거나 데이터 범위 편집을 클릭하여 전체 범위를 재작업할 수 있습니다. 데이터 범위를 정제하는 경우 다음을 클릭하십시오.
스케줄된 가져오기 작업을 실행하려는지 여부를 정의하십시오. 스케줄을 설정하지 않으면 메타데이터 가져오기 자산을 저장할 때 가져오기를 실행합니다. 언제든지 가져오기를 수동으로 재실행할 수 있습니다. 가져오기를 특정 스케줄에 실행하기로 선택한 경우 작업을 실행할 날짜와 시간을 정의하십시오. 단일 및 반복 실행을 스케줄할 수 있습니다. 단일 실행을 스케줄하는 경우 작업은 지정된 날짜 및 시간에 정확히 한 번 실행됩니다. 반복 실행을 스케줄하는 경우 반복 섹션에 표시된 시간소인에 처음으로 작업이 실행됩니다.
선택적으로 가져오기 작업의 이름을 변경하십시오. 기본 이름은 metadata_import_name 작업입니다.
나중에 메타데이터 가져오기 자산 또는 프로젝트의 작업 페이지에서 작성한 가져오기 작업에 액세스할 수 있습니다. 작업을 참조하십시오.
선택사항. 가져오기 동작을 사용자 정의하십시오. 특정 특성이 업데이트되지 않도록 하고 다시 가져오기에 포함되지 않은 기존 자산을 삭제하도록 선택할 수 있습니다.
- 다시 가져오기 시 업데이트
- 기본적으로 자산을 다시 가져올 때 모든 자산 특성이 업데이트됩니다. 다시 가져올 때 자산 이름, 자산 설명 또는 열 설명을 업데이트하지 않으려면 각 선택란을 선택 취소하십시오.
- 다시 가져오기 시 삭제
- 기본적으로 가져오기를 다시 실행할 때 대상 프로젝트 또는 카탈로그에서 자산이 삭제되지 않습니다. 대상 프로젝트 또는 카탈로그를 정리하기 위해 데이터 소스에서 더 이상 사용할 수 없는 자산 또는 다시 가져올 때 가져오기 범위에서 제거된 자산을 삭제하도록 선택할 수 있습니다.
- 가져오기에서 제외
- 관계형 데이터베이스에서 실행하는 메타데이터 임포트의 경우, 모든 유형의 관계형 자산을 임포트할 것인지 또는 테이블 또는 뷰, 별명 및 동의어를 제외할 것인지 여부를 선택할 수 있습니다. 이 옵션은 상호 배타적입니다.
- 추가 특성 가져오기
- 관계형 데이터베이스에서 실행하는 메타데이터 가져오기의 경우 데이터베이스에 정의될 수 있는 기본 및 외부 키를 가져올지 여부를 선택할 수 있습니다.
추가 가져오기 옵션:
- 증분 가져오기
가져오기를 재실행할 때 새 데이터 자산 또는 수정된 데이터 자산만 가져오도록 증분 가져오기를 사용으로 설정합니다. 이 옵션은 증분 가져오기를 지원하는 데이터 소스에 대해서만 사용 가능합니다.
데이터 소스에서 자산의 설명을 업데이트하거나 제거해도 자산의 수정 날짜는 변경되지 않습니다. 가져온 자산 목록에서 제거되는 자산의 경우에도 수정 날짜가 변경되지 않습니다. 따라서 이러한 자산은 증분 가져오기에 대해 고려되지 않습니다. 또한 데이터 소스 또는 범위에서 삭제된 자산은 증분 가져오기로 발견되지 않습니다. 따라서 이러한 자산은 제거됨 으로 표시되지 않거나 다시 가져올 때 삭제 설정으로 지정된 대로 삭제되지 않습니다. 이러한 변경사항이 반영되었는지 확인하려면 증분 가져오기를 사용 안함으로 설정하여 데이터 범위의 모든 자산을 다시 가져오십시오.
중요: Cloud Pak for Data 계정에 액세스하는 데이터 소스 및 위치가 다른 시간대에 있는 경우 증분 가져오기가 작동하지 않을 수 있습니다. 데이터 소스의 시간대보다 빠른 시간대에서 Cloud Pak for Data 계정에 액세스하는 경우, 메타데이터 가져오기 작업은 마지막 가져오기 실행 이후에 추가되거나 수정된 자산을 발견하지 못할 수 있습니다. 이 경우 가져오기를 다시 실행할 때 모든 자산이 포함되도록 증분 가져오기를 사용 안함으로 설정하십시오.
증분 가져오기가 작동하려면 데이터 소스가 Cloud Pak for Data 계정의 시간대에 관계없이 GMT 시간대에 있어야 합니다.- 데이터베이스 카탈로그에서 메타데이터 수집
관계형 데이터베이스에서 실행하는 메타데이터 가져오기의 경우 데이터베이스 카탈로그에서 메타데이터를 가져오도록 선택할 수 있습니다. 따라서 임포트를 실행하는 사용자는 데이터베이스 카탈로그에 대한 액세스 권한만 필요하지만 실제 데이터에 대한 SELECT 권한은 필요하지 않습니다. 가져온 자산을 프로파일링하거나 메타데이터 인리치먼트에서 사용할 수 없습니다.
메타데이터 가져오기 구성을 검토하십시오. 변경하려면 바둑판식에서 편집 아이콘
을 클릭하고 설정을 업데이트하십시오.
작성을 클릭하십시오. 메타데이터 가져오기 자산이 프로젝트에 추가되고 메타데이터 가져오기 작업이 작성됩니다. 스케줄을 구성하지 않은 경우 가져오기가 즉시 실행됩니다. 스케줄을 구성한 경우 정의된 스케줄에 따라 가져오기가 실행됩니다.
중요: 다른 메타데이터 가져오기를 통해 이미 가져온 동일한 연결의 자산은 다시 가져오지 않지만 업데이트됩니다. 이러한 자산은 더 이상 초기 메타데이터 가져오기에 표시되지 않습니다. 가장 최근에 실행된 메타데이터 가져오기만이 자산을 포함합니다.
메타데이터 가져오기 작업 실행의 결과에 따라 완료 메시지 또는 오류 알림이 표시됩니다.
작업 실행이 성공적으로 완료되었거나, 경고와 함께 완료되었거나, 오류와 함께 완료되었을 때 완료 메시지가 표시됩니다. 전체 작업 실행이 실패하면 오류 알림이 표시됩니다. 알림 유형에는 특정 작업 실행에 대한 세부사항을 제공하는 작업 실행 로그에 대한 링크가 포함되어 있습니다.
가져오기가 완료되면 다음 정보가 있는 자산 목록을 볼 수 있습니다.
- 프로젝트 또는 카탈로그의 자산에 대한 링크를 제공하는 자산 이름입니다.
- 자산 유형 (예:
Data
) 및 형식 (예:Relational table
). - 자산 컨텍스트(예: 상위 또는 파일 경로)
- 자산을 마지막으로 가져온 날짜 및 시간
- 가져오기 상태(성공적으로 가져온 데이터의 경우
Imported
일 수 있음,In progress
또는 자산을 다시 가져올 수 없는 경우Removed
).
연결된 데이터 자산과 동일한 방식으로 대부분의 가져온 데이터 자산에 대해 작업할 수 있습니다. 가져온 자산에는 적용 가능한 경우 자산의 상위를 반영하는 태그가 자동으로 지정됩니다.
가져온 데이터 자산에 비즈니스 컨텍스트를 프로파일링, 분석 및 제공하려면 메타데이터 강화 자산을 작성하고 데이터 범위에 메타데이터 가져오기 자산을 포함시키십시오.
자세한 정보
다음 단계
상위 주제: 메타데이터 가져오기