Data Virtualization ' IBM Cloud Pak® for Data as a Service'에서 다음과 같은 관계형 및 비관계형 데이터 소스를 지원합니다.
플랫폼 연결에서 클라우드 통합, Secure Gateway또는 Satellite Link를 사용하는 경우 기존 플랫폼 연결에 대한 연결로 데이터 소스에 연결할 수 없습니다. 이러한 기능은 플랫폼 연결에 연결할 때 Data Virtualization 지원되지 않습니다. 다음과 유사한 오류 메시지가 표시됩니다.Cannot reach the network destination of the data source. 클라우드 통합, Secure Gateway 또는 Satellite Link 사용하여 데이터 소스를 설정하고 호스트 이름 또는 IP 엔드포인트를 새 연결로 Data Virtualization 직접 제공할 수 있습니다.
- 크기 한계
- Data Virtualization 최대 1MB의 행 크기와 최대 2048개의 테이블 열을 가진 테이블의 가상화를 지원합니다. 그러나 Data Virtualization 미리 볼 수 있는 열의 수는 열의 데이터 유형 등 여러 요인에 따라 달라집니다. 현재 미리보기는 200개열로 제한되어 있습니다.
- 주석 속성
- 가상 테이블이 생성되면 Data Virtualization 데이터 소스 개체에 할당된 주석 속성이 포함되지 않습니다. 이 제한사항은 모든 데이터 소스에 적용됩니다.
- 데이터 유형
- 데이터 원본의 일부 데이터 유형은 Data Virtualization 지원되지 않을 수 있습니다. 이러한 제한사항은 다음 표에 문서화되어 있습니다. Data Virtualization 데이터 원본의 일부 데이터 유형을 대체 데이터 유형에 매핑할 수도 있습니다. 이러한 맵핑은 기본 Db2® Big SQL 맵핑을 기반으로 합니다. 자세한 정보는 Db2 Big SQL을 참조하십시오.
데이터 소스
다음 표에는 Data Virtualization 연결할 수 있는 IBM® 데이터 원본이 나와 있습니다.
커넥터 | 제한사항 | 기타 정보 |
---|---|---|
IBM Cloud® Databases for MongoDB | IBM Cloud Databases for MongoDB은(는) 베타로 사용할 수 있습니다. Data Virtualization 지원되는 ' MongoDB 데이터 유형은 다음과 같습니다: INT32, INT64, DOUBLE, 문자열, 부울, 날짜, 바이너리. |
|
IBM Cloud Databases for MySQL | ||
PostgreSQL용IBM Cloud 데이터베이스 | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
|
IBM Cloud Object Storage | 이 연결은 Data Virtualization 특별한 고려가 필요합니다. Data Virtualization IBM Cloud Object Storage 연결하기를 참조하세요. 제한 사항은 Data Virtualization 개체 저장소의 데이터 소스를 참조하세요. |
|
IBM Data Virtualization Manager for z/OS® | 연결에서 클라우드 통합, Secure Gateway또는 Satellite Link를 사용하는 경우 Data Virtualization Manager for z/OS 에 연결할 수 없습니다. 이러한 기능은 Data Virtualization 지원하지 않는 기능입니다. 다음과 유사한 오류 메시지가 표시됩니다.Cannot reach the network destination of the data source. | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
IBM Db2 |
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
IBM Db2 Big SQL | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
|
IBM Db2 for i | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
|
IBM Db2 for z/OS | ||
IBM Db2 on Cloud | Data Virtualization NCHAR 및 NVARCHAR 유형이 지원되지 않습니다. | |
IBM Db2 Warehouse | ||
IBM Informix® | Data Virtualization INTERVAL, BIGINT 및 BIGSERIAL 데이터 유형이 지원되지 않습니다. 자세한 정보는 Connect for JDBC Informix 드라이버를 사용하는 경우 예외 발생을 참조하십시오. | |
IBM Netezza® Performance Server |
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
IBM Planning Analytics |
|
|
IBM Data Virtualization | 중요: 중요: Data Virtualization 인스턴스에 대한 연결을 만들지 마세요.
|
서드파티 데이터 소스
다음 표에는 Data Virtualization 연결할 수 있는 타사 데이터 소스가 나열되어 있습니다.
커넥터 | 제한사항 | 기타 정보 |
---|---|---|
Amazon RDS for MySQL |
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
Amazon RDS for Oracle |
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
Amazon RDS for PostgreSQL | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
|
Amazon Redshift | 공간, 스케치 및 SUPER 데이터 유형은 Data Virtualization CLOB로 변환됩니다. | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
Amazon S3 | 이 연결은 Data Virtualization 특별한 고려가 필요합니다. Data Virtualization Amazon S3 연결하기를 참조하세요.
|
|
Apache Derby | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
|
Apache Hive |
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
Ceph | 이 연결은 Data Virtualization 특별한 고려가 필요합니다. Data Virtualization Ceph에 연결하기를 참조하세요. 제한 사항은 Data Virtualization 개체 저장소의 데이터 소스를 참조하세요. |
|
Cloudera Impala | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
|
일반 S3 | 제한 사항은 Data Virtualization 개체 저장소의 데이터 소스를 참조하세요. |
|
Google BigQuery | 이 연결은 Data Virtualization 특별한 고려가 필요합니다. Data Virtualization Google BigQuery 연결하기를 참조하세요.
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
Greenplum | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
|
MariaDB |
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
Microsoft Azure Data Lake Storage | ||
Microsoft Azure SQL Database | ||
Microsoft SQL Server |
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
MongoDB |
|
|
MySQL (My SQL Community Edition) (My SQL Enterprise Edition) |
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
Oracle |
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
PostgreSQL | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
|
Salesforce.com | 이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
|
SAP ASE | ||
SAP OData | 다음과 같은 이유로 읽을 수 없는 테이블을 미리보거나 쿼리할 수 없습니다.
|
|
Snowflake | 이 연결은 Data Virtualization 특별한 고려가 필요합니다. Data Virtualization 스노우플레이크에 연결하기를 참조하세요.
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
Teradata Teradata JDBC 드라이버 17.00 Copyright (C) 2024 by Teradata. All rights reserved. IBM 은 IBM Watson® 서비스 오퍼링의 일부로만 Teradata 의 라이센스에 의거하여 Teradata JDBC 드라이버의 임베디드 사용을 제공합니다. |
|
이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다. |
Data Virtualization 오브젝트 스토리지에 있는 데이터 소스
IBM Cloud Object Storage, Amazon S3, Ceph, 또는 Generic S3 데이터 소스에 파일로 저장된 데이터를 사용하여 가상 테이블을 작성할 수 있습니다. Cloud Object Storage에 저장된 데이터에 액세스하려면 해당 파일이 있는 데이터 소스에 대한 연결을 작성해야 합니다.
하나 이상의 파일에서 데이터를 세그먼트화하거나 결합하여 가상 테이블을 작성할 수 있습니다. Data Virtualization 객체 스토리지의 파일에 액세스하는 것은 Hadoop 외부 테이블 지원을 사용하는 Db2 Big SQL 기능을 기반으로 합니다. 자세한 정보는 CREATE TABLE (HADOOP) 문을 참조하십시오.
용어집
- 버킷은 데이터에 대한 컨테이너를 제공하는 데 사용되는 논리적 추상입니다. 오브젝트 스토리지에 폴더 개념이 없습니다. 버킷과 키만 있습니다. 버킷은 오브젝트 스토리지 데이터 소스의 인터페이스에서만 작성할 수 있습니다. Data Virtualization 만들 수 없습니다. 버킷 이름은 고유해야 하며 오브젝트 스토리지 제공자의 규칙을 준수해야 합니다. 이러한 규칙에는 종종 소문자, 숫자 및 대시만 사용하여 이름을 3-63자로 제한하는 것이 포함됩니다. 버킷 이름은 소문자 또는 숫자로 시작하고 끝나야 합니다. Data Virtualization 오브젝트 스토리지의 데이터에 액세스할 때 버킷 이름은 모든 오브젝트 스토리지 연결에서 고유해야 합니다.
- 파일 경로는 데이터를 저장할 파일의 전체 경로입니다. S3 파일 시스템 구현을 사용하면 길이가 0인 파일을 디렉토리처럼 취급할 수 있으며 슬래시(/)가 포함된 파일 이름은 중첩된 디렉토리처럼 처리됩니다. 파일 경로에는 버킷 이름, 선택적 파일 경로 및 파일 이름이 포함됩니다. 오브젝트 스토리지에서 파일 경로는 테이블이 작성될 때 사용됩니다. 동일한 경로의 모든 파일이 테이블 데이터에 기여합니다. 파일 경로에 다른 파일을 추가하여 더 많은 데이터를 추가할 수 있습니다.
- 파티션 은 스키마의 공통 속성으로 그룹화된 데이터입니다. 파티셔닝은 데이터를 여러 파일 경로로 나누며, 이 경로는 디렉토리처럼 처리됩니다. Data Virtualization 파티션을 검색하고 사용하여 쿼리가 처리해야 하는 데이터의 양을 줄일 수 있으므로 파티션 열에 술어를 사용하는 쿼리의 성능을 향상시킬 수 있습니다.
우수 사례
- 파일 형식
- Data Virtualization PARQUET(또는 PARQUETFILE), ORC(최적화된 행 열 형식), CSV(쉼표로 구분된 값), TSV(탭으로 구분된 값) 및 JSON 파일 형식을 지원합니다. 다른 파일 형식은 지원되지 않습니다.
- PARQUET(또는 PARQUETFILE)의 경우, 파일 확장자는 필요하지 않습니다. 메타데이터는 데이터 파일로부터 추출됩니다.
- ORC의 경우에는 파일 확장자가 필요하지 않습니다. 메타데이터는 데이터 파일로부터 추출됩니다.
- CSV및 TSV 파일의 경우:
- 다음과 같이 적절한 .csv 또는 .tsv 파일 확장자가 필요합니다.
- CSV: .csv 파일 확장자가 필요하며 파일의 컨텐츠는 쉼표로 구분된 값의 스펙을 따라야 합니다.
- TSV: .tsv 파일 확장자가 필요하며 파일의 컨텐츠는 탭으로 구분된 값의 스펙을 따라야 합니다.
- 선택적 매개변수를 사용하여 CSV및 TSV 파일의 필드 값을 둘러싸는 문자열 구분 기호 문자 (
quoteChar
) 를 지정할 수 있습니다.quoteChar
가 지정된 경우 데이터 조회 성능에 부정적인 영향을 줄 수 있습니다.- 기본값은 분리문자 없음입니다 (지정되지 않음).
quoteChar
의 값은 공백 (공백), 백슬래시, 탭, 쉼표 또는 줄 바꾸기 문자 (\n
) 가 될 수 없는 단일 문자여야 합니다.- 문자열 값에 문자열 구분 기호 (
quoteChar
) 가 포함된 경우 백슬래시 (\
) 를 사용하여 문자열 구분 기호를 이스케이프할 수 있습니다.
- 다음과 같이 적절한 .csv 또는 .tsv 파일 확장자가 필요합니다.
- JSON 파일의 경우 .json 파일 확장자가 필요합니다. 각 행이 유효한 JSON 오브젝트가 되도록 JSON 파일을 코딩해야 합니다. 줄은 줄 바꾸기 문자(
\n
)로 구분해야 합니다. JSON행 텍스트 형식(줄로 구분된 JSON)은 유일하게 지원되는 JSON 형식입니다. 이 형식은 한 번에 하나의 레코드를 처리할 수 있는 구조화된 데이터를 저장합니다.
주: 다른 모든 파일 형식은 오류를 리턴합니다. 자세한 정보는 Cloud Object Storage에서 지원되지 않는 파일 형식을 사용하려고 할 때 발생하는 오류 메시지를 참조하십시오. - 데이터 구성
- Hive 호환성을 방해할 수 있으므로 컬럼 이름에 영숫자 문자를 사용하지 마십시오. 영숫자 문자나 밑줄 문자가 아닌 모든 문자는 _xNNNN, 인코딩되며, 여기서 _xNNNN 해당 문자의 16진수 값입니다. 열 이름을 올바르게 보려면 다음 단계를 완료하여
allownonalphanumeric
옵션을 사용으로 설정하십시오.- Data Virtualization 인스턴스c-db2u-dv-db2u-0)의 헤드 파드에 액세스합니다.
- 다음 명령을 실행하여
allownonalphanumeric
옵션을 포함하도록 구성을 편집하십시오.db2uctl adm bigsql config --key bigsql.catalog.identifier.mappingrules --value allownonalphanumeric,allowleadingdigits,allowreservedwords
- 다음 명령을 실행하여 Big SQL를 다시 시작하십시오.
su - db2inst1 bigsql stop ; bigsql start
- 오브젝트 스토리지 데이터가 가상화된 테이블을 통해 액세스되는 경우 가상화하려는 파일은 단일 파일 경로 및 단일 버킷 내에 있어야 하며 버킷에는 카트에 추가하는 하나 이상의 파일이 포함되어야 합니다. 이 파일 경로의 모든 파일은 가상화된 테이블의 일부입니다. 테이블에 더 많은 데이터가 추가되면 (파일 경로에 새 파일이 작성됨) 가상화된 테이블에 액세스할 때 데이터가 표시됩니다. 파일 경로의 모든 파일은 하나의 테이블로 가상화되도록 동일한 파일 형식을 사용해야 합니다.
- 여러 파일 경로의 파일을 하나의 테이블로 가상화하려는 경우 모든 파일을 포함하는 버킷을 가상화할 수 있습니다. 예를 들어, 파일 경로 A/B/C/T1a, A/B/C/T1b, A/B/D/T1c 및 A/B/D/T1d이(가) 있는 경우 파일 경로 A/B/을(를) 가상화할 수 있습니다. 해당 경로 및 중첩 경로의 모든 파일은 액세스 가능한 오브젝트의 일부가 됩니다.
- 구분 ID및 대소문자를 혼합하여 사용하는 경우에도 동일한 이름으로 두 개의 오브젝트 (테이블, 스키마 또는 열) 를 작성하지 마십시오. 예를 들어, t1 테이블과 이름이 T1인 다른 테이블을 가질 수 없습니다. 이러한 이름은 오브젝트 스토리지(Hive)에서 중복된 이름으로 간주됩니다. 자세한 정보는 ID의 내용을 참조하십시오.
- Db2 는 Hive 에서 지원하는 것보다 더 광범위한 유효한 구분 ID를 지원합니다. 오브젝트 저장소에서 가상화된 테이블을 작성할 때 지정되는 일부 ID 이름은 Hive 카탈로그에 허용되기 전에 조정될 수 있습니다. 맵핑은 자동으로 수행됩니다. 자세한 정보는 ID를 참조하십시오.
- 가상화된 테이블의 파일 경로에 새 데이터가 추가되면 다음 명령을 실행하여 새 데이터를 보도록 메타데이터 캐시가 업데이트되었는지 확인하십시오.
CALL SYSHADOOP.HCAT_CACHE_SYNC(<schema>, <object>)
자세한 정보는 HCAT_CACHE_SYNC 스토어드 프로시저를 참조하십시오.
- 가상화된 테이블의 파일 경로에 새 파티션이 추가되면 가상화된 데이터 페이지의 오버플로우 메뉴에서 파티션 새로 고치기 를 클릭하여 새 파티션을 식별하십시오.
SQL 인터페이스에서 다음 명령을 실행하여 추가된 새 파티션을 식별할 수도 있습니다.
MSCK REPAIR TABLE <table-name>
자세한 정보는 MSCK REPAIR TABLE을 참조하십시오.
- Hive 호환성을 방해할 수 있으므로 컬럼 이름에 영숫자 문자를 사용하지 마십시오. 영숫자 문자나 밑줄 문자가 아닌 모든 문자는 _xNNNN, 인코딩되며, 여기서 _xNNNN 해당 문자의 16진수 값입니다. 열 이름을 올바르게 보려면 다음 단계를 완료하여
- 쿼리 성능 최적화
- ORC 또는 Parquet과 같은 압축 파일 형식을 사용하여 네트워크 트래픽을 최소화하면 조회 성능이 향상됩니다.
- STRING 또는 TEXT 데이터 유형을 사용하지 마십시오. n이 열 데이터에 적합한 값으로 설정된 경우, VARCHAR(n) 데이터 유형을 사용하십시오. 다음 명령을 사용하여 컬럼에 적절한 길이를 정의하도록 테이블을 변경하십시오.
ALTER TABLE <schema>.<table> ALTER COLUMN <col> SET DATA TYPE VARCHAR(<size>)
- Hive 스타일 파티셔닝을 사용하여 데이터를 파티셔닝합니다. 파티션된 데이터는 공통 속성으로 그룹화됩니다. Data Virtualization 파티션을 사용하여 쿼리가 처리해야 하는 데이터의 양을 줄일 수 있습니다. 전체 데이터 세트를 조회하는 것이 불가능하거나 필요하지 않을 수 있습니다. 파티션 컬럼을 포함하는 쿼리에서 술어를 사용하여 성능을 향상시킬 수 있습니다.
예를 들어, 연도 컬럼에서 파티션된 school_records 테이블은 연도별로 값을 별도의 파일 경로로 분리합니다.
WHERE
조건 (예:YEAR=1993
,YEAR IN (1996,1995)
또는YEAR BETWEEN 1992 AND 1996
) 은 조회를 분석하기 위해 적절한 파일 경로의 데이터만 스캔합니다. - 파티션된 컬럼 유형을 정확하게 정의하십시오. 기본적으로 파티션된 문자 열은 STRING 유형으로 가정되며, 이는 권장되지 않습니다. 파티션된 컬럼을 적절한 데이터 유형으로 재정의하십시오.
- 쿼리 중인 데이터에 대한 통계를 수집합니다. Data Virtualization ' ANALYZE ' 명령을 사용하여 오브젝트 저장소를 통해 가상화된 테이블에 대한 통계를 수집합니다. 웹 클라이언트에서 또는 SQL을 사용하여 통계를 수집할 수 있습니다. 자세한 내용은 Data Virtualization 통계 수집하기를 참조하세요.
제한사항
- Data Virtualization CSV, TSV 또는 JSON 형식의 텍스트 파일에 대해 UTF-8 문자 인코딩만 지원됩니다. Cloud Object Storage 2진 형식(예: ORC 또는 PARQUET)은 문자 유형을 투명하게 인코딩하므로 영향을 받지 않습니다.
- Data Virtualization 객체 저장소를 통해 가상화된 테이블에서 TIME 데이터 유형을 지원하지 않습니다.
- 클라우드 오브젝트 스토리지의 자산 미리보기는 테이블의 처음 200개열만 표시합니다.
- Cloud Object Storage에 대한 연결을 제거하기 전에 오브젝트 스토리지 연결에서 모든 가상화된 테이블을 제거해야 합니다. 연결이 제거되고 해당 연결에서 테이블을 제거하려고 하면 오류가 표시됩니다. 오브젝트 스토리지에서 가상화된 테이블을 제거할 때 신임 정보 오류 메시지를 참조하십시오.
- 버킷이 연결 특성에 지정되지 않은 경우 연결은 글로벌입니다. 이 경우 파일 경로에 버킷 이름을 포함하십시오. Data Virtualization 인스턴스에서 최대 하나의 글로벌 연결을 지정할 수 있습니다.
CREATE TABLE (HADOOP) 문의 제한사항
도 참조하십시오.