메타데이터를 가져올 수 있고, 메타데이터 보강 또는 데이터 품질 규칙을 실행할 수 있으며, 동적 보기를 만드는 데 사용할 수 있고, 데이터 품질 규칙의 출력을 작성할 수 있는 많은 데이터 소스에 연결할 수 있습니다.
열에 대시(-)가 있는 경우 해당 데이터 원본이 이 용도로 지원되지 않음을 나타냅니다.
기본적으로 데이터 품질 규칙 및 기본 DataStage 플로우는 표준 플랫폼 연결을 지원합니다. 기존 DataStage 에서 지원되고 사용자 정의 DataStage 플로우에서 잠재적으로 사용되는 모든 커넥터가 IBM Knowledge Catalog에서 지원되는 것은 아닙니다.
요구사항 및 제한사항
데이터 큐레이션 및 데이터 품질 평가에 사용할 연결에 대한 요구 사항과 제한 사항을 이해합니다.
필요 권한
사용자에게 데이터 소스에 대한 연결에 액세스할 수 있는 권한이 부여되어야 합니다. 메타데이터 가져오기의 경우, 가져오기를 실행하는 사용자에게는 해당 데이터베이스에 대한 SELECT 또는 유사한 권한이 있어야 합니다.
일반 전제조건
다음과 같은 경우에 사용되는 연결에 대한 연결 자산이 프로젝트에 있어야 합니다.
- 메타데이터 보강의 자산에 대한 고급 분석(심층 기본 키 분석, 심층 관계 분석 또는 고급 데이터 프로파일링)을 포함한 메타데이터 보강을 실행하는 경우
- 데이터 품질 규칙 실행
- 조회 기반 데이터 자산 작성의 경우 (동적 보기)
- 데이터 품질 검사 또는 빈도 분포표의 출력 작성용
지원되는 소스 데이터 형식
일반적으로 메타데이터 가져오기, 메타데이터 보강 및 데이터 품질 규칙은 다음과 같은 데이터 형식을 지원합니다:
모두: 관계형 및 비관계형 데이터 소스의 테이블
Amazon S3의 경우 델타 레이크 테이블 형식
Metadata import: 데이터 소스에 대한 파일 기반 연결의 모든 형식입니다. Microsoft Excel 워크북의 경우 각 시트를 별도의 데이터 자산으로 가져옵니다. 데이터 자산 이름은 Excel 시트의 이름과 같습니다.
메타데이터 인리치먼트: 테이블 형식: CSV, TSV, Avro, Parquet, Microsoft Excel (로컬 파일 시스템에서 업로드된 워크북의 경우 워크북의 첫 번째 시트만 프로파일링됩니다.)
데이터 품질 규칙: 표 형식: Avro, CSV, Parquet, ORC; 로컬 파일 시스템에서 업로드된 데이터 자산의 경우 CSV만 해당
리니지 가져오기
데이터의 계보 정보를 가져오려면 IBM Knowledge Catalog 서비스 인스턴스에서 데이터 계보 기능을 활성화해야 합니다. 자세한 내용은 데이터 계보 활성화를 참조하세요.
분석 출력 테이블에 대한 데이터베이스 지원
일반적으로 분석 중에 생성되는 출력 테이블은 이러한 데이터베이스에 기록할 수 있습니다:
특정 데이터베이스 커넥터가 출력 테이블도 지원하는 경우 출력 테이블 대상 열에 확인 표시가 표시됩니다.
파일 스토리지 커넥터
커넥터 | Metadata import | 메타데이터 강화 | 정의 기반 규칙 |
---|---|---|---|
Amazon S3 | ✓ | ✓ | ✓ |
Apache HDFS | ✓ | ✓ | ✓ |
Box | ✓ | ✓ 1 | — |
일반 S3 | ✓ | ✓ 1 | — |
IBM Cloud Object Storage | ✓ | ✓ | — |
IBM Match 360 | ✓ | ✓ | ✓ |
Microsoft Azure Data Lake Storage | ✓ | ✓ 1 | ✓ |
참고:
1 이 데이터 원본에는 고급 분석이 지원되지 않습니다.
데이터베이스 커넥터
커넥터 | Metadata import (자산) | Metadata import (lineage) | 메타데이터 강화 | 정의 기반 규칙 | SQL 기반 규칙 | SQL 기반 데이터 자산 | 출력 테이블 대상 |
---|---|---|---|---|---|---|---|
Amazon RDS for MySQL | ✓ | — | ✓ | — | — | — | — |
Amazon RDS for Oracle | ✓ | ✓ | — | ✓ | ✓ | — | — |
Amazon RDS for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
Amazon Redshift | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
Apache Cassandra | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Apache Hive | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 5 |
Apache Impala와 Apache Kudu | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Dremio | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Google BigQuery | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ 6 |
Greenplum | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Cloud Data Engine | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MongoDB | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for MySQL | ✓ | — | ✓ | — | — | — | — |
IBM Cloud Databases for PostgreSQL | ✓ | ✓ | ✓ | — | — | — | — |
IBM Data Virtualization | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
IBM Data Virtualization Manager for z/OS 2 | ✓ | — | ✓ | — | — | — | — |
IBM Db2 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
IBM Db2 Big SQL | ✓ | — | ✓ | — | — | — | — |
IBM Db2 for z/OS | ✓ | ✓ | ✓ | — | — | — | — |
IBM Db2 on Cloud | ✓ | ✓ | ✓ | ✓ | ✓ | — | ✓ |
IBM Db2 Warehouse | ✓ | — | ✓ | — | — | — | — |
IBM Informix | ✓ | — | ✓ | — | — | — | — |
IBM Netezza Performance Server | ✓ | — | ✓ | ✓ | ✓ | — | — |
커넥터 | Metadata import (자산) | Metadata import (lineage) | 메타데이터 강화 | 정의 기반 규칙 | SQL 기반 규칙 | SQL 기반 데이터 자산 | 출력 테이블 대상 |
MariaDB | ✓ | — | ✓ | — | — | — | — |
Microsoft Azure 데이터브릭스7 | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Microsoft Azure SQL Database | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Microsoft SQL Server | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
MongoDB | ✓ | — | ✓ | ✓ | ✓ | — | — |
MySQL | ✓ | — | ✓ | ✓ | ✓ | ✓ | — |
Oracle 3 | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
PostgreSQL | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Salesforce.com | ✓ | — | ✓ 1 4 | — | — | — | — |
SAP ASE | ✓ | — | ✓ 1 | ✓ | ✓ | ✓ | — |
SAP OData 인증 방법: 사용자 이름 및 비밀번호 |
✓ | — | ✓ 8 | ✓ | — | — | — |
SingleStoreDB | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
Snowflake | ✓ | ✓ | ✓ 1 | ✓ | ✓ | ✓ | — |
Teradata | ✓ | — | ✓ | ✓ | ✓ | ✓ | ✓ |
참고:
1 이 데이터 원본에는 고급 분석이 지원되지 않습니다.
2 Data Virtualization Manager for z/OS을 사용하면 메인프레임 시스템의 데이터 및 COBOL 카피북 자산을 IBM Cloud Pak for Data의 카탈로그에 추가할 수 있습니다. 카피북은 COBOL 프로그램의 데이터 구조를 설명하는 파일입니다. Data Virtualization Manager for z/OS를 통해 COBOL 카피북 맵에서 가상 테이블과 뷰를 작성할 수 있습니다. 그 후 이러한 가상 테이블 및 뷰를 사용하여 메인프레임 데이터를 메인프레임으로부터 IBM Cloud Pak for Data로, 데이터 자산 및 COBOL 카피북 자산 형태로 가져오고 카탈로깅할 수 있습니다.
다음 유형의 COBOL 카피북 맵은 가져오기할 수 없습니다: ACI, 카탈로그, 자연
가져오기가 완료되면 카탈로그로 이동하여 COBOL 카피북 맵, 가상 테이블 및 뷰를 비롯한 가져온 자산을 검토할 수 있습니다. 이러한 자산은 Cloud Pak for Data에서 다른 자산을 사용하는 방식과 동일한 방식으로 사용할 수 있습니다.
자세한 정보는 COBOL 카피북 자산 추가를 참조하십시오.
3 테이블 및 열 설명은 다음 메타데이터 검색 옵션 중 하나를 사용하여 연결이 구성된 경우에만 가져옵니다:
- 동의어 없음
- 비고 및 동의어
4 SFORCE 스키마의 일부 개체는 지원되지 않습니다. Salesforce.com의 내용을 참조하십시오.
5 Apache Hive에서 메타데이터 보강 출력 테이블을 3.0.0에서 메타데이터 보강 출력 테이블을 생성하려면 3.0.0보다 이전 버전의 Apache Hive에 설명된 해결 방법을 적용해야 합니다.
6 고급 프로파일링용 출력 테이블: 고급 프로파일링을 너무 짧은 간격으로 다시 실행하면 Google BigQuery에서 데이터가 충분히 빠르게 업데이트되지 않아 결과가 누적될 수 있습니다. 동일한 출력 대상으로 고급 프로파일링을 다시 실행하기 전에 최소 90분을 기다리세요. 자세한 내용은 스트림 데이터 가용성를 참조하세요. 또는 다른 출력 테이블을 정의할 수도 있습니다.
7 Hive 메타스토어 및 Unity 카탈로그
8 데이터 자산이 테이블인지 뷰인지 여부에 대한 정보는 검색할 수 없으므로 보강 결과에 표시되지 않습니다.
메타데이터 가져오기와 관련된 커넥터 및 기타 데이터 소스
추가 데이터 소스에서 에셋 및 계보 메타데이터를 가져올 수 있습니다.
데이터 소스 | Metadata import (자산) | Metadata import (lineage) |
---|---|---|
IBM DataStage for Cloud Pak for Data | — | ✓ |
InfoSphere DataStage | — | ✓ |
Microsoft Power BI (Azure) | — | ✓ |
MicroStrategy | — | ✓ |
OpenLineage | — | ✓ |
Tableau | — | ✓ |
자세한 정보
상위 주제: 선별