자산 유형 및 특성

자산은 데이터, 기타 유형의 정보 또는 운영 코드에 대한 메타데이터를 포함하는 항목입니다. 프로젝트, 카탈로그 및 배치 영역과 같은 기본 작업공간을 포함하여 Cloud Pak for Data 플랫폼 전반에서 자산에 대해 작업합니다.

다음과 같은 기본 유형의 자산을 작성할 수 있습니다.

  • 데이터 자산에는 데이터에 액세스하는 방법을 포함하여 데이터에 대한 메타데이터가 포함되어 있습니다.
  • 운영 자산 데이터 또는 기타 유형의 정보에 대해 작업하기 위한 코드를 실행합니다.
  • 구성 자산에는 재사용 가능한 템플리트가 있습니다.

자산을 이해하려면 다양한 유형의 자산, 해당 특성 및 자산을 찾을 수 있는 위치를 알아야 합니다.

자산에 대한 작업공간

{: #workspaces}글로벌 검색 표시줄에서 검색하여 사용자가 협업자인 작업공간에서 자산을 찾을 수 있습니다. 플랫폼 전체에서 자산 검색을 참조하십시오.

자산으로 수행할 수 있는 작업은 자산의 유형과 작업공간의 유형에 따라 다릅니다.

프로젝트 다른 사용자와 협업하여 데이터 작업을 수행합니다. 예를 들어, 프로젝트에서 데이터를 준비하거나, 데이터를 분석하거나, 모델을 작성할 수 있습니다. 프로젝트에서 모든 유형의 자산을 작성하고 운영 자산을 실행할 수 있습니다. 프로젝트를 참조하십시오.

카탈로그 조직과 공유할 자산을 저장하는 위치입니다. 카탈로그의 자산을 프로젝트에 복사하여 작업하거나 프로젝트의 자산을 카탈로그에 공개할 수 있습니다. 모든 유형의 데이터 자산과 일부 유형의 운영 자산을 카탈로그에 공개할 수 있습니다. 카탈로그에서 자산 메타데이터를 편집할 수 있지만 운영 자산을 실행할 수는 없습니다. 카탈로그를 참조하십시오.

배치 공간 모델 또는 기타 자산을 프로덕션에 배치하는 위치입니다. 배치 가능한 자산을 프로젝트에서 배치 영역으로 복사한 후 해당 자산에서 배치를 작성합니다. 배치 공간을 참조하십시오.

데이터 가상화 하나 이상의 테이블을 결합 또는 세그먼트화하여 가상 테이블을 작성합니다. 가상 테이블을 데이터 자산으로 카탈로그에 공개합니다. 데이터 가상화를 참조하십시오.

데이터 자산

데이터 자산은 데이터를 가리킵니다.

데이터 자산을 작성하는 방법은 데이터가 있는 위치에 따라 다릅니다.

  • 데이터가 파일에 있는 경우 로컬 시스템에서 프로젝트, 카탈로그 또는 배치 영역으로 파일을 업로드합니다.
  • 데이터가 원격 데이터 소스에 있는 경우 먼저 해당 데이터 소스에 대한 연결을 정의하는 연결 자산을 작성합니다. 그런 다음 연결, 경로 또는 기타 구조, 데이터가 포함된 테이블 또는 파일을 선택하여 데이터 자산을 작성합니다. 이 유형의 데이터 자산을 연결된 데이터 자산이라고 합니다.

데이터 자산 유형

파일의 데이터 자산 파일의 데이터 자산은 로컬 시스템에서 업로드한 파일을 가리킵니다. 파일은 프로젝트, 카탈로그 또는 배치 영역과 연관된 IBM Cloud Object Storage 인스턴스의 오브젝트 스토리지 컨테이너에 저장됩니다. 파일의 컨텐츠에는 구조화된 데이터, 구조화되지 않은 텍스트 데이터, 이미지 및 기타 유형의 데이터가 포함될 수 있습니다. 임의 형식의 파일로 데이터 자산을 작성할 수 있습니다. 그러나 다른 파일 형식에 비해 CSV 파일에 대해 더 많은 조치를 수행할 수 있습니다.

연결된 데이터 자산 연결된 데이터 자산은 원격 데이터 소스에 대한 연결을 통해 액세스되는 테이블, 파일 또는 폴더를 가리킵니다. 연결은 연결된 데이터 자산과 연관된 연결 자산에서 정의됩니다. 연결된 데이터 소스에 액세스할 때 데이터는 데이터 소스에서 동적으로 검색됩니다.

폴더 데이터 자산은 연결된 데이터 자산의 특수한 경우입니다. 이는 IBM Cloud Object Storage의 폴더를 가리킵니다. 폴더 및 IBM Cloud Object Storage 연결 자산에 대한 경로를 지정하여 폴더 데이터 자산을 작성합니다. 폴더 데이터 자산과 경로를 공유하는 파일 및 하위 폴더를 볼 수 있습니다. 폴더 데이터 자산 내에서 볼 수 있는 파일 자체는 데이터 자산이 아닙니다. 예를 들어, 지속적으로 업데이트되는 뉴스 피드가 포함된 경로의 폴더 데이터 자산을 작성할 수 있습니다.

연결 자산 연결 자산은 데이터 자산의 유형으로 간주됩니다. 연결 자산에는 데이터 소스에 대한 연결을 작성하는 데 필요한 정보가 포함됩니다. 사용할 연결 자산에 대한 액세스 권한이 있는 모든 사용자에게 공유 인증 정보를 제공하도록 선택하거나 각 사용자가 연결을 사용할 때 개인 인증 정보를 입력하도록 지정할 수 있습니다. 프로젝트 및 카탈로그는 IBM 및 타사 데이터 소스 모두에 대한 다양한 연결 유형을 지원합니다.

프로젝트에 데이터 추가하기, 카탈로그에 자산 추가하기배치 공간에 데이터 자산 추가를 참조하십시오.

운영 자산

{: #tools}운영 자산은 데이터를 준비하거나, 데이터를 분석하거나, 모델을 빌드하는 도구를 사용하여 프로젝트에서 데이터에 대한 작업을 수행하는 방법입니다. 프로젝트에서 도구를 사용하여 운영 자산을 작성합니다. 예를 들어, Jupyter 노트북은 데이터를 분석하기 위해 노트북 편집기 도구로 작성할 수 있는 운영 자산입니다.

운영 자산 실행

운영 자산을 실행할 때 컴퓨팅 리소스를 사용합니다. 컴퓨팅 리소스는 용량 단위 시간(CUH)으로 측정되며 추적됩니다. 서비스의 플랜에 따라 월별 CUH가 제한되거나 설정된 월별 CUH를 초과하는 경우 추가 요금이 발생할 수 있습니다.

많은 운영 자산에서 사용할 컴퓨팅 환경 구성을 선택할 수 있습니다. 일반적으로 더 크고 빠른 환경 구성이 컴퓨팅 리소스를 더 빠르게 사용합니다. 환경을 참조하십시오.

운영 자산을 실행할 때마다 작업으로 간주됩니다. 작업을 모니터하고 스케줄링할 수 있습니다. 작업을 참조하십시오.

운영 자산의 유형

핵심 서비스에서 많은 운영 자산이 제공됩니다. 그러나 일부 운영 자산에는 다른 서비스가 필요합니다.

Watson Studio, Watson Machine Learning 및 Watson Knowledge Catalog 서비스를 사용하면 추가 서비스 없이 이러한 유형의 운영 자산을 작성할 수 있습니다.

  • Data Refinery 도구를 사용하여 데이터를 정제하려면 Data Refinery 플로우를 선택하십시오.
  • Jupyter 노트북 - 데이터 또는 빌드 모델을 분석합니다. Jupyter 노트북 편집기를 사용합니다.
  • SPSS Modeler 플로우 - SPSS Modeler에서 SPSS 알고리즘이 있는 모델을 통해 데이터 플로우를 자동화합니다.
  • Decision Optimization 모델 - Decision Optimization 모델 빌더에서 시나리오를 해결합니다.
  • AutoAI 실험 - AutoAI 도구에서 코딩하지 않고 모델을 빌드합니다.
  • 딥 러닝 실험 - 실험 빌더에서 심화 학습 모델을 훈련합니다.
  • 메타데이터 가져오기 - 자산 메타데이터를 프로젝트 또는 카탈로그로 가져옵니다.
  • 메타데이터 강화 - 프로파일링 및 데이터 품질 분석 및 비즈니스 용어의 결과가 있는 프로젝트의 데이터 자산을 보강합니다.

다음 운영 자산에는 다른 서비스가 필요합니다. 이를 필요로 하는 첫 번째 자산을 작성할 때 각 서비스를 프로비저닝할 수 있습니다.

  • DataStage 플로우 - DataStage 도구를 사용하여 데이터 변환 작업을 작성합니다. DataStage 서비스가 필요합니다.
  • 대시보드 - 대시보드 편집기에서 코드가 없는 데이터를 시각화합니다. Cognos Dashboards 서비스가 필요합니다.

Watson Studio가 없는 Watson Knowledge Catalog 서비스가 있는 경우 Data Refinery 플로우 및 메타데이터 가져오기 자산을 작성할 수 있습니다.

구성 자산

{: #config} 구성 자산은 다른 자산 또는 작업을 구성하기 위해 프로젝트에서 재사용 가능한 템플리트입니다.

DataStage 서비스를 사용하면 다음과 같은 유형의 구성 자산을 작성할 수 있습니다.

  • DataStage 서브플로우 - DataStage 플로우에서 재사용할 스테이지 및 커넥터 세트를 수집합니다.
  • 데이터 정의 - DataStage 플로우 작업에서 재사용할 데이터 자산의 열 메타데이터를 지정합니다.
  • 매개변수 세트 - 작업에서 재사용할 지정된 값으로 다중 작업 매개변수를 수집합니다.

자산 특성, 메타데이터 및 관계

{: #properties}모든 자산에는 어디서나 볼 수 있는 공통 메타데이터가 있습니다. 기타 자산 특성은 자산의 유형과 자산이 있는 위치에 따라 다릅니다.

공통 특성

모든 자산에는 프로젝트, 카탈로그 및 배치 영역에서 보고 편집할 수 있는 공통 특성이 있습니다.

이름 최대 100자를 포함할 수 있습니다. 멀티바이트 문자를 지원합니다. 비어 있을 수 없으며, 유니코드 제어 문자를 포함할 수 없고, 공백만 포함할 수 없습니다. 자산 이름은 프로젝트 또는 배치 공간에서 고유하지 않아도 됩니다. 카탈로그에서 자산 이름이 고유해야 하는지 여부는 카탈로그의 중복 처리 방법 세트에 따라 다릅니다.

설명 선택사항. 공백을 제외하고 최대 245자를 포함할 수 있습니다. 멀티바이트 문자 및 하이퍼링크를 지원합니다.

태그 자산을 더 쉽게 검색하는 거버넌스되지 않은 메타데이터입니다. 태그에는 공백, 문자, 멀티바이트 문자, 숫자, 밑줄, 대시, # 및 @ 기호만 포함될 수 있습니다. 관리자 또는 편집자 역할이 있는 프로젝트, 카탈로그 또는 배치 영역 협업자는 태그를 작성하여 자산에 추가할 수 있습니다.

추가된 날짜, 크기, 작성자, 마지막 편집자, 마지막으로 수정한 날짜, 스케줄, 공유, 언어, 모델 유형 및 상태와 같은 자산 유형에 따라 자동으로 생성되거나 발견된 메타데이터에 다른 정보가 포함될 수 있습니다.

카탈로그의 자세한 정보

카탈로그의 자산에는 더 많은 특성, 관계 및 메타데이터가 있을 수 있습니다.

자산 개인정보 보호 기본적으로 공용으로 설정됩니다. 이 설정은 개인용으로 설정된 경우 카탈로그의 자산에 대한 액세스를 제한할 수 있습니다. 자산의 소유자 및 구성원만 개인용 자산을 보고 사용할 수 있습니다.

자산 소유자 및 자산 구성원 기본적으로 자산 소유자는 카탈로그에 자산을 추가한 사용자입니다. 자산 구성원은 개인용으로 표시될 때 자산을 보고 사용할 수 있습니다.

거버넌스 아티팩트 자동으로 자산 소유자가 지정하거나 데이터 스튜어드로 지정할 수 있습니다. 거버넌스 아티팩트는 메타데이터 및 관계를 자산에 추가하거나 데이터 자산 내에서 민감한 데이터를 마스킹할 수 있습니다.

사용자 정의 속성 선택사항. API를 사용하여 자산에 대한 사용자 정의 속성을 작성할 수 있습니다.

리뷰 및 평가 모든 카탈로그 협업자는 자산을 평가하고 검토할 수 있습니다.

데이터 자산에 대한 자세한 정보

데이터 자산의 데이터 형식에 따라 자산을 열 때 자세한 정보가 표시됩니다.

데이터에 대한 경로 데이터에 액세스하는 데 필요한 정보. 데이터베이스의 테이블에 대한 연결된 데이터 자산에는 데이터베이스의 연결 자산, 스키마 또는 기타 경로 정보 및 테이블 이름에 대한 참조가 있습니다. 업로드된 파일에 대한 데이터 자산에는 프로젝트, 카탈로그 또는 배치 영역의 오브젝트 스토리지 컨테이너에 있는 파일 위치에 대한 참조가 있습니다.

파일 형식 파일의 MIME 유형. 자동으로 감지됩니다.

데이터 미리보기 CSV, Avro, Parquet, Microsoft Excel, PDF, 텍스트 및 이미지 파일에 대한 데이터 미리보기.

데이터 프로파일 CSV, Avro, Parquet, Microsoft Word, PDF, 텍스트 및 HTML 파일에 대한 데이터 프로파일.

활동 프로젝트 및 카탈로그에서 자산에 대해 수행된 활동의 히스토리입니다. 활동을 볼 수 있는지 여부는 Watson Knowledge Catalog 오퍼링 계획에 따라 다릅니다.

자세히 보기

상위 주제: IBM Cloud Pak for Data as a Service 개요