빠른 시작: 데이터 큐레이팅

데이터 소스에서 선택한 데이터 세트에 대한 정보를 가져온 후 결과 데이터 자산을 카탈로그에 공개하여 데이터를 신속하게 선별할 수 있습니다. 데이터 선별에 대해 읽은 후 비디오를 시청하고 데이터 선별에 대한 지식이 있는 사용자에게 적합한 학습서를 사용하지만 코딩이 필요하지는 않습니다.

필수 역할 프로젝트에 관리자 또는 편집자 역할이 있고 대상 카탈로그에 관리자 또는 편집자 역할이 있어야 합니다.

기본 워크플로우에는 다음 태스크가 포함됩니다.

  1. 프로젝트를 작성합니다. 프로젝트 작성을 참조하십시오.
  2. 외부 데이터 소스에 대한 연결을 작성합니다. 프로젝트에 연결 추가를 참조하십시오.
  3. 메타데이터 가져오기 자산을 작성하여 가져오기 세부사항을 구성하고, 가져오기 작업을 실행하고 자산을 카탈로그에 공개합니다.

데이터 큐레이션에 대해 알아보기

조직에서 데이터 자산과 연관된 메타데이터를 프로젝트나 카탈로그로 가져와서 이러한 자산을 목록을 만들고, 평가하고 카탈로그화할 수 있습니다. 이 메타데이터는 사용자가 데이터가 직면한 태스크에 적합한지 여부와 데이터를 신뢰할 수 있는지 여부 및 데이터에 대해 작업하는 방법을 결정하는 데 도움을 줍니다.

가져오는 메타데이터는 나중에 사용자가 데이터를 빠르고 찾고 확신을 가지고 사용할 수 있도록 다른 정보가 보강될 수도 있습니다. 이러한 정보에는 데이터의 의미를 정의하는 용어, 소유권을 문서화하거나 품질 표준을 판별하는 규칙 또는 검토 등이 포함됩니다.

메타데이터를 가져올 때 데이터 자산을 프로젝트나 카탈로그에 추가합니다. 자산을 프로젝트로 가져오는 경우 이들은 공개할 때까지는 카탈로그에 표시되지 않습니다. 이들을 카탈로그에 공유한 후에는 다른 카탈로그 사용자가 이러한 자산에 대해 작업할 수 있습니다.

메타데이터 가져오기에 대한 추가 정보 읽기

자산 메타데이터 가져오기에 대한 동영상 보기

비디오 시청 외부 데이터 소스에서 자산 메타데이터를 가져오는 방법을 보려면 이 비디오를 시청하십시오.

이 비디오는 이 문서에 기록된 단계를 수행하는 방법의 대안인 시각적 메소드를 제공합니다.

튜토리얼을 시도하여 자산 메타데이터 가져오기

메타데이터 가져오기 자산을 기존 프로젝트에서 작성하고, 작업을 실행한 다음 자산을 카탈로그에 선택하십시오.

전제조건

  1. 이전에 작성된 카탈로그 또는 카탈로그 작성에 대한 액세스.
  2. Cloud Object Storage 인스턴스의 인증 정보.

    1. Cloud Pak for Data 메뉴에서 서비스 > 서비스 인스턴스를 클릭하십시오.
    2. Cloud Object Storage 인스턴스 옆에 있는 아이콘을 클릭하고, 필요한 경우 IBM Cloud에 로그인하십시오.
    3. Cloud Object Storage 서비스 인스턴스 페이지에서 서비스 신임 정보 패널을 선택하여 신임 정보를 보십시오. 둘 이상의 신임 정보 세트가 나열되어 있는 경우, cos_hmac_keys을(를) 포함하는 신임 정보를 선택하십시오. 이 튜토리얼에서 나중에 이 인증 정보를 제공해야 합니다.
    4. 엔드포인트 패널을 선택하십시오.
    5. 위치를 선택하십시오(예: us-geo).
    6. 공용 로그인 URL(예: https://s3.us.cloud-object-storage.appdomain.cloud)을 복사하십시오.
  3. Cloud Object Storage 인스턴스로 로드된 데이터 세트가 있는 샘플 프로젝트.

    1. 보험 가격 책정 최적화 프로젝트에 액세스하십시오.
    2. 프로젝트 작성을 클릭하십시오.
    3. 이름, 설명 및 스토리지가 채워집니다. 작성을 클릭하십시오.
    4. 가져오기 요약 보기를 클릭하십시오. 프로젝트의 자산 탭에 있는 데이터 파일이 Cloud Object Storage 인스턴스에 추가되었습니다.

이 튜토리얼에서는 다음을 수행합니다.

  • 프로젝트를 작성합니다.
  • 메타데이터를 프로젝트로 가져오십시오.
  • 가져오기 결과를 보고 자산을 카탈로그에 공개하십시오.

이 튜토리얼은 완료하는 데 약 20분이 소요됩니다.

1단계: 프로젝트 작성

{: #step1}가져오기 메타데이터 자산 및 발견된 자산을 저장할 프로젝트가 필요합니다.

  1. 전제조건으로 작성된 샘플 프로젝트보다 다른 기존 프로젝트가 있는 경우 그 프로젝트를 여십시오. 다른 기존 프로젝트가 없는 경우 홈 페이지에서 프로젝트 작성을 클릭하거나 프로젝트 페이지에서 새 프로젝트를 클릭하십시오.
  2. 빈 프로젝트 작성을 선택하십시오.
  3. 프로젝트 작성 화면에서 프로젝트에 대한 이름 및 선택적 설명을 추가하십시오.
  4. 기존을 선택하거나 새로 작성하십시오.
  5. 작성을 클릭하십시오.

자세한 정보 또는 비디오를 시청하려면 프로젝트 작성을(를) 참조하십시오.
Cloud Object Storage에 대한 자세한 정보는 오브젝트 스토리지을(를) 참조하십시오.

2단계: 메타데이터를 프로젝트로 가져오기

{: #step2} 메타데이터 가져오기 자산을 작성하고 가져오기에 대한 연결을 지정합니다.

  1. 프로젝트에서 프로젝트에 추가 > 메타데이터 가져오기를 클릭하십시오.
  2. 가져오기의 이름을 지정하십시오. 설명은 선택사항입니다.
  3. 연결 드롭 다운에서 새 연결 작성을 선택하십시오.
  4. 메타데이터를 나열된 데이터 소스에서 가져올 수 있습니다. 이 학습서에서는 Cloud Object Storage를 선택하고 선택을 클릭하십시오.
  5. IBM Cloud에 있는 Cloud Object Storage 인스턴스의 신임 정보를 사용하여 이름, 설명 및 연결 세부사항을 제공하십시오.
  6. 작성을 클릭하여 연결을 작성하십시오. 이 새 연결은 소스 및 대상 연결 정의 드롭 다운 상자에 나열됩니다.
  7. 메타데이터를 프로젝트나 카탈로그로 가져오도록 선택할 수 있습니다. 이 튜토리얼에서, 먼저 메타데이터를 프로젝트로 가져오고 특정 자산을 선택하여 카탈로그에 공개합니다.
  8. 데이터 범위를 계속하려면 다음을 클릭하십시오.

3단계: 데이터 범위 정의

{: #step3} 연결에서 가져올 자산을 정의합니다.

  1. 데이터 범위 설정을 클릭하십시오.
  2. 모든 스키마를 선택하거나 가져올 스키마나 테이블을 선택할 수 있습니다. insurancepricingoptimization 폴더를 선택하면 포함된 항목의 수를 볼 수 있습니다.
  3. insurancepricingoptimization 폴더 옆에 있는 선택란을 선택하여 범위를 해당 폴더의 모든 자산으로 정의하십시오.
  4. 메타데이터 가져오기 자산 정의를 계속하려면 선택을 클릭하십시오.
  5. 스케줄을 계속하려면 다음을 클릭하십시오.

4단계: 가져오기 스케줄 지정 및 완료

{: #step4} 지금 가져오기를 실행하거나 나중에 이를 스케줄하려면 지정하십시오.

  1. (선택사항)기본 작업 이름을 수정합니다.
  2. (선택사항)스케줄 끔 전환을 선택하여 시작 및 반복 세부사항을 지정하십시오.
  3. 검토를 계속하려면 다음을 클릭하십시오.
  4. 가져오기 요약을 검토하고 작성을 클릭하십시오.
  5. 메타데이터 가져오기 작업이 시작하거나 스케줄 지정된 시간으로 실행합니다.

5단계: 가져오기 결과를 보고 자산을 카탈로그에 공개

{: #step5}작업 실행이 완료되면 가져온 자산 목록이 표시됩니다.

  1. 목록에서 하나 이상의 csv 파일을 선택하고 공개를 클릭하십시오.
  2. 대상 카탈로그를 선택하고 설명 및 태그를 제공한 후 공개를 클릭하십시오.
  3. 카탈로그를 탐색하여 최근에 추가된 탭에 방금 추가한 데이터 자산을 확인하십시오.

다음 단계

이제 데이터를 사용할 준비가 되어 있습니다. 예를 들어, 사용자나 다른 사용자가 다음 태스크를 수행할 수 있습니다.

추가 자원

상위 주제: 선별 및 관리 데이터 시작하기