Data Virtualization 지원되는 데이터 원본

마지막 업데이트 날짜: 2025년 3월 24일

Data Virtualization 지원되는 데이터 소스 및 데이터 유형

Data Virtualization ' IBM Cloud Pak for Data as a Service'에서 다음과 같은 관계형 및 비관계형 데이터 소스를 지원합니다.

플랫폼 연결에서 클라우드 통합, Secure Gateway또는 Satellite Link를 사용하는 경우 기존 플랫폼 연결에 대한 연결로 데이터 소스에 연결할 수 없습니다. 이러한 기능은 플랫폼 연결에 연결할 때 Data Virtualization 지원되지 않습니다. 다음과 유사한 오류 메시지가 표시됩니다.Cannot reach the network destination of the data source. 클라우드 통합, Secure Gateway 또는 Satellite Link 사용하여 데이터 소스를 설정하고 호스트 이름 또는 IP 엔드포인트를 새 연결로 Data Virtualization 직접 제공할 수 있습니다.

크기 한계: Data Virtualization 최대 1MB의 행 크기와 최대 2048개의 테이블 열을 가진 테이블의 가상화를 지원합니다. 그러나 Data Virtualization 미리 볼 수 있는 열의 수는 열의 데이터 유형 등 여러 요인에 따라 달라집니다. 현재 미리보기는 200개열로 제한되어 있습니다.
주석 속성: 가상 테이블이 생성되면 Data Virtualization 데이터 소스 개체에 할당된 주석 속성이 포함되지 않습니다. 이 제한사항은 모든 데이터 소스에 적용됩니다.
데이터 유형: 데이터 원본의 일부 데이터 유형은 Data Virtualization 지원되지 않을 수 있습니다. 이러한 제한사항은 다음 표에 문서화되어 있습니다. Data Virtualization 데이터 원본의 일부 데이터 유형을 대체 데이터 유형에 매핑할 수도 있습니다. 이러한 맵핑은 기본 Db2® Big SQL 맵핑을 기반으로 합니다. 자세한 정보는 Db2 Big SQL을 참조하십시오.

데이터 소스

다음 표에는 Data Virtualization 연결할 수 있는 IBM® 데이터 원본이 나와 있습니다.

표 1. 지원되는 데이터 소스
커넥터	제한사항	기타 정보
IBM Cloud Databases for MongoDB	IBM Cloud Databases for MongoDB은(는) 베타로 사용할 수 있습니다. Data Virtualization 지원되는 ' MongoDB 데이터 유형은 다음과 같습니다: INT32, INT64, DOUBLE, 문자열, 부울, 날짜, 바이너리.
IBM Cloud Databases for MySQL
PostgreSQL용IBM Cloud 데이터베이스		이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
IBM Cloud Object Storage	이 연결은 Data Virtualization 특별한 고려가 필요합니다. Data Virtualization IBM Cloud Object Storage 연결하기를 참조하세요. 제한 사항은 Data Virtualization 개체 저장소의 데이터 소스를 참조하세요.
IBM Data Virtualization Manager for z/OS	연결에서 클라우드 통합, Secure Gateway또는 Satellite Link를 사용하는 경우 Data Virtualization Manager for z/OS 에 연결할 수 없습니다. 이러한 기능은 Data Virtualization 지원하지 않는 기능입니다. 다음과 유사한 오류 메시지가 표시됩니다.`Cannot reach the network destination of the data source`.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
IBM Db2	Data Virtualization NCHAR 및 NVARCHAR 유형이 지원되지 않습니다. Db2 Data Virtualization 기본값이 DOUBLE인 DECFLOAT 유형을 사용합니다. 이 맵핑은 특정 값이 리턴되는 방법에 영향을 줍니다. Db2 Data Virtualization 기본값이 BLOB인 DISTINCT 유형을 사용합니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
IBM Db2 Big SQL		이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
IBM Db2 for i		이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
IBM Db2 for z/OS
IBM Db2 on Cloud	Data Virtualization NCHAR 및 NVARCHAR 유형이 지원되지 않습니다.
IBM Db2 Warehouse
IBM Informix®	Data Virtualization INTERVAL, BIGINT 및 BIGSERIAL 데이터 유형이 지원되지 않습니다. 자세한 정보는 Connect for JDBC Informix 드라이버를 사용하는 경우 예외 발생을 참조하십시오.
IBM Netezza Performance Server	BLOB, XML 및 CLOB ' Netezza 데이터 유형은 Data Virtualization 지원되지 않습니다. SELECT 문을 사용하거나 kB, 큰 LOB 데이터를 미리 보는 경우 Data Virtualization 데이터를 64KB로만 잘라냅니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
IBM Planning Analytics	Data Virtualization 열 차원이 하나인 TM1® 뷰만 가상화할 수 있습니다. 집계를 TM1에 푸시다운할 수 없습니다. TM1 에 대한 쿼리에 COUNT, SUM, AVG, MAX, MIN 또는 GROUP BY와 같은 집계 연산이 포함된 경우 다음 서버 옵션을 추가할 수 있습니다. `alter server qplex options (add DB2_GROUP_BY 'N')` Data Virtualization TM1 VARCHAR 및 DOUBLE 데이터 유형만 지원합니다. TM1 은 SQL을 인식하지 않습니다. TM1 의 네이티브 쿼리 언어는 MDX이며 푸시다운 개념이 없습니다. 따라서 이 데이터 소스는 최적 술어 푸시다운을 지원하도록 구성되지 않았습니다.
IBM Data Virtualization	중요: 중요: Data Virtualization 인스턴스에 대한 연결을 만들지 마세요.

서드파티 데이터 소스

다음 표에는 Data Virtualization 연결할 수 있는 타사 데이터 소스가 나열되어 있습니다.

표 2. 지원되는 타사 데이터 소스
커넥터	제한사항	기타 정보
Amazon RDS for MySQL	가상화 페이지에서 행이 중복되지 않도록 하려면 MySQL 데이터 소스의 데이터베이스에 대해 하나의 연결만 작성해야 합니다. MySQL 는 데이터베이스 격리를 지원하지 않습니다. Data Virtualization BIT 유형이 지원되지 않습니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Amazon RDS for Oracle	SELECT 문을 사용하거나 kB, 큰 LOB 데이터를 미리 보는 경우 Data Virtualization 데이터를 64KB로만 잘라냅니다. Data Virtualization 변환되는 데이터 유형은 다음과 같습니다: INTERVAL과 JSON은 VARCHAR로 변환됩니다. 문자 유형은 CHAR, VARCHAR 또는 CLOB로 변환됩니다. TIMESTAMP 및 TIMESTAMP WITH LOCAL TIME ZONE은 TIMESTAMP로 변환됩니다. XML은 CLOB로 변환됩니다. SMALLINT, INTEGER, BIGINT는 DECIMAL 4.0, DECIMAL 9.0및 DECIMAL 18.0으로 변환됩니다. SMALLINT, INTEGER, BIGINT는 DECIMAL 4.0, DECIMAL 9.0및 DECIMAL 18.0으로 변환됩니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Amazon RDS for PostgreSQL		이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Amazon Redshift	Data Virtualization 에서 SPATIAL, SKETCH, SUPER 데이터 유형은 CLOB로 변환됩니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Amazon S3	이 연결은 Data Virtualization 특별한 고려가 필요합니다. Amazon S3 에 연결하는 방법은 Data Virtualization 를 참조하십시오. Amazon S3의 이름 지정 버킷에는 특정 규칙이 적용됩니다. 자세한 정보는 Amazon S3 문서의 버킷 이름 지정 규칙을 참조하십시오. 버켓의 이름에 점을 포함하는 경우, 인증서 유효성 검증을 수행하지 않는 한, HTTPS를 통해 가상 호스트 스타일 주소 지정을 사용할 수 없습니다. 버켓의 가상 호스팅에 사용되는 보안 인증서는 이름에 점이 있는 버켓에 대해 작동하지 않습니다. Amazon S3용 AWS PrivateLink 를 사용하여 가상 프라이빗 클라우드 (VPC) 에서 인터페이스 VPC 엔드포인트 (인터페이스 엔드포인트) 를 프로비저닝할 수 있습니다. Amazon S3 데이터 소스에 대한 연결을 만들 때 엔드포인트 URL 에서 이 엔드포인트를 사용할 수 없습니다. 이 유형의 엔드포인트는 지원되지 않습니다. Amazon S3에 대한 표준 엔드포인트를 사용해야 합니다 (예: `http://s3.eu-central-1.amazonaws.com/`). 더 많은 제한 사항은 Data Virtualization 의 객체 저장소의 데이터 소스를 참조하십시오.
Apache Derby		이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Apache Hive	가상화된 테이블에서는 복합 데이터 유형의 값 (예: 배열, 맵, 구조 및 유니온 유형) 만 나열할 수 있습니다. 이러한 복합 데이터 유형의 값에 대한 기타 조작은 지원되지 않습니다. SELECT 문을 사용하거나 kB, 큰 LOB 데이터를 미리 보는 경우 Data Virtualization 데이터를 64KB로만 잘라냅니다. Hive 데이터 소스의 문자열 및 2진 유형은 이제 CLOB 및 BLOB 대신 기본적으로 VARCHAR(32672) 및 VARBINARY(32672)(으)로 해석됩니다. Data Virtualization 관리자는 ' `HIVE_MAX_STRING_SIZE` '과 ' `HIVE_MAX_BINARY_SIZE`'를 구성할 수 있습니다. 이 업데이트는 Hive 데이터 소스의 SQL 성능을 최적화합니다. Data Virtualization 관리자는 ' `DVSYS.SETCONFIGPROPERTY` 프로시저를 호출하여 ' HIVE_MAX_STRING_SIZE ' 및 ' HIVE_MAX_BINARY_SIZE '를 구성할 수 있습니다. 예를 들어, Hive `BINARY` 데이터 유형의 기본 최대 크기를 `2000` `VARBINARY(2000)`(으)로 변경하려면 다음 명령을 실행하십시오. `db2 "call dvsys.setconfigproperty ('HIVE_MAX_BINARY_SIZE', '2000', '', ?, ?)"` 최소 크기는 `1`이고 권장되는 최대 크기는 `32672`입니다. 32672를 초과할 수 있습니다. 그러나 `STRING` 및 `BINARY` 유형은 `CLOB` 및 `BLOB` 유형으로 해석되며, 이로 인해 특정 쿼리가 실패할 수 있습니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Ceph	이 연결은 Data Virtualization 특별한 고려가 필요합니다. Data Virtualization 에서 Ceph에 연결하는 방법을 참조하십시오. 제한 사항은 Data Virtualization 의 객체 저장소의 데이터 소스를 참조하십시오.
Apache Impala		이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
일반 S3	제한 사항은 Data Virtualization 의 객체 저장소의 데이터 소스를 참조하십시오.
Google BigQuery	이 연결은 Data Virtualization 특별한 고려가 필요합니다. Google BigQuery 에 연결하는 방법은 Data Virtualization 를 참조하십시오. ' Google BigQuery 데이터 원본에서 Data Virtualization 데이터 유형이 ' `RECORD`'인 열에 대해 SELECT 문 사용을 지원하지 않습니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Greenplum		이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
MariaDB	Data Virtualization 비트, 롱텍스트 및 롱블록 유형이 지원되지 않습니다. 가상화 페이지에서 행이 중복되지 않도록 하려면 MariaDB 데이터 소스의 데이터베이스에 대해 하나의 연결만 작성해야 합니다. MariaDB 는 데이터베이스 격리를 지원하지 않습니다. 통계 수집과 같은 고급 조작을 위해서는 MariaDB 데이터 소스에 대한 관리 권한이 있어야 합니다. MariaDB 버전 10 이전의 경우, 수집 카탈로그 통계가 지원되지 않습니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Microsoft Azure Data Lake Storage Gen2
Microsoft Azure SQL Database
Microsoft SQL Server	SELECT 문을 사용하거나 kB, 큰 LOB 데이터를 미리 보는 경우 Data Virtualization 데이터를 64KB로만 잘라냅니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
MongoDB	Data Virtualization 비트, 롱텍스트 및 롱블록 유형이 지원되지 않습니다. 통계 수집과 같은 고급 조작을 위해서는 MongoDB 데이터 소스에 대한 관리 권한이 있어야 합니다.
MySQL (My SQL Community Edition) (My SQL Enterprise Edition)	가상화 페이지에서 행이 중복되지 않도록 하려면 MySQL 데이터 소스의 데이터베이스에 대해 하나의 연결만 작성해야 합니다. MySQL 는 데이터베이스 격리를 지원하지 않습니다. Data Virtualization BIT 유형이 지원되지 않습니다. BIGINT 함수는 Data Virtualization INTERSECT, INTERSECT ALL, EXCEPT, EXCEPT ALL과 같은 집합 연산에서는 지원되지 않습니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Oracle	SELECT 문을 사용하거나 kB, 큰 LOB 데이터를 미리 보는 경우 Data Virtualization 데이터를 64KB로만 잘라냅니다. Data Virtualization 변환되는 데이터 유형은 다음과 같습니다: INTERVAL과 JSON은 VARCHAR로 변환됩니다. 문자 유형은 CHAR, VARCHAR 또는 CLOB로 변환됩니다. TIMESTAMP 및 TIMESTAMP WITH LOCAL TIME ZONE은 TIMESTAMP로 변환됩니다. XML은 CLOB로 변환됩니다. SMALLINT, INTEGER, BIGINT는 DECIMAL 4.0, DECIMAL 9.0및 DECIMAL 18.0으로 변환됩니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
PostgreSQL		이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Presto	중복 연결이 필요한 경우, 플랫폼 연결에서 먼저 연결을 만든 다음 Data Virtualization. 이 방법을 따르면, Data Virtualization 앞으로. 이 연결에 연결된 오래된 가상 테이블도 복원됩니다. 그러나 중복 연결은 관리가 더 필요하고 쿼리 성능에 영향을 미칠 수 있으므로 중복 연결 사용을 제한하는 것이 좋습니다. 만약에 Data Virtualization 웹 클라이언트 또는 SETRDBCX API를 사용하면 연결이 제거되거나 연결된 가상 테이블이 제거된 경우 연결 또는 연결된 가상 테이블을 복원할 수 없습니다.	Presto 에 연결을 만들 때 기본 카탈로그가 선택됩니다. 또한, 다른 Presto 카탈로그에서 가상화한 개체에 다시 전환하지 않고도 액세스할 수 있습니다.
REST API	이 연결은 Data Virtualization. Data Virtualization 의 REST API 연결을 참조하십시오.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Salesforce.com		이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
SAP ASE
SAP HANA	이 연결은 Data Virtualization 특별한 고려가 필요합니다. SAP HANA 에 연결하는 방법은 Data Virtualization 를 참조하십시오.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
SAP OData	다음과 같은 이유로 읽을 수 없는 테이블을 미리보거나 쿼리할 수 없습니다. SAP OData 데이터 소스에는 쓰기 전용 액세스가 있을 수 있습니다. 이러한 경우 사용자 권한을 변경해도 이 문제가 발생하지 않습니다. SAP OData 데이터 소스에 읽기 액세스 권한이 있지만 필터가 필요합니다. 이 제한사항은 데이터를 미리 볼 수 없지만 필터를 지정하는 경우 이를 읽을 수 있음을 의미합니다.
Snowflake	이 연결은 Data Virtualization 특별한 고려가 필요합니다. Snowflake 에 연결하는 방법은 Data Virtualization 를 참조하십시오. ARRAY, GEOGRAPHY 및 VARIANT 데이터 유형은 VARCHAR로 변환됩니다. Data Virtualization URL 엔드포인트를 지원하지 않습니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Spark SQL	이 연결은 Data Virtualization. 스파크 SQL에 연결하기를 참조하십시오.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.
Teradata Teradata JDBC 드라이버. 저작권 (C) 2024 by. 17.00 Teradata All rights reserved. IBM Teradata JDBC Driver를 라이선스 하에 Teradata 에서 제공하며, IBM Watson® 서비스 제공의 일부로만 사용하도록 합니다.	XML ' Teradata ' 데이터 유형은 Data Virtualization 지원되지 않습니다. XML 데이터 유형은 CLOB로 변환됩니다. DECIMAL 데이터는 DECFLOAT를 사용하여 34개의 숫자들로 지원됩니다. 이 한계를 초과하는 데이터 열은 가상화 중에 DOUBLE로 편집되어야 합니다. Data Virtualization 변환되는 데이터 유형은 다음과 같습니다: 대소문자 구분을 처리하기 위해 CHAR 또는 VARCHAR 데이터에 대한 GROUP BY 또는 WHERE 술어와 같은 문자열 비교 연산을 포함하는 쿼리. VARBYTE는 비트 데이터에 대해서는 VARCHAR로 변환됩니다. BYTE는 BINARY로 변환됩니다. BYTEINT는 SMALLINT로 전환됩니다. TIME ZONE BEARING은 TIME 및 TIMESTAMP로 변환됩니다. PERIOD, DISTINCT, DATASET 및 ARRAY가 BLOB으로 변환됩니다. NUMBER는 DOUBLE로 변환됩니다. YEAR, YEAR TO MONTH, DAY, DAY TO MINUTE, HOUR TO MINUTE, MONTH, HOUR 및 MINUTE가 INTEGER로 변환됩니다. DAY TO SECOND, HOUR TO SECOND, MINUTE TO SECOND, SECOND는 DECIMAL로 변환됩니다. SELECT 문을 사용하거나 kB, 큰 LOB 데이터를 미리 보는 경우 Data Virtualization 데이터를 64KB로만 잘라냅니다.	이 연결은 이 데이터 소스의 쿼리 기능을 활용하도록 최적화되어 있습니다.

Data Virtualization 오브젝트 스토리지에 있는 데이터 소스

IBM Cloud Object Storage, Amazon S3, Ceph, MinIO 데이터 소스에 파일로 저장된 데이터를 사용하여 가상 테이블을 만들 수 있습니다. Cloud Object Storage에 저장된 데이터에 액세스하려면 해당 파일이 있는 데이터 소스에 대한 연결을 작성해야 합니다.

하나 이상의 파일에서 데이터를 세그먼트화하거나 결합하여 가상 테이블을 작성할 수 있습니다. Data Virtualization 객체 스토리지의 파일에 액세스하는 것은 Hadoop 외부 테이블 지원을 사용하는 Db2 Big SQL 기능을 기반으로 합니다. 자세한 내용은 CREATE TABLE (HADOOP) 문을 참고하세요.

용어집

버켓 및 파티션은 데이터 조직에서 중요한 역할을 수행합니다. 다음 구성요소는 오브젝트 스토리지의 핵심 요소입니다.

버킷은 데이터에 대한 컨테이너를 제공하는 데 사용되는 논리적 추상입니다. 오브젝트 스토리지에 폴더 개념이 없습니다. 버킷과 키만 있습니다. 버킷은 오브젝트 스토리지 데이터 소스의 인터페이스에서만 작성할 수 있습니다. Data Virtualization 만들 수 없습니다. 버킷 이름은 고유해야 하며, 개체 저장소 제공업체의 규칙을 준수해야 합니다. 이러한 규칙에는 종종 소문자, 숫자 및 대시만 사용하여 이름을 3-63자로 제한하는 것이 포함됩니다. 버킷 이름은 소문자 또는 숫자로 시작하고 끝나야 합니다. Data Virtualization 오브젝트 스토리지의 데이터에 액세스할 때 버킷 이름은 모든 오브젝트 스토리지 연결에서 고유해야 합니다.
파일 경로는 데이터를 저장할 파일의 전체 경로입니다. S3 파일 시스템 구현을 사용하면 길이가 0인 파일을 디렉토리처럼 취급할 수 있으며 슬래시(/)가 포함된 파일 이름은 중첩된 디렉토리처럼 처리됩니다. 파일 경로에는 버킷 이름, 선택적 파일 경로 및 파일 이름이 포함됩니다. 오브젝트 스토리지에서 파일 경로는 테이블이 작성될 때 사용됩니다. 동일한 경로의 모든 파일이 테이블 데이터에 기여합니다. 파일 경로에 다른 파일을 추가하여 더 많은 데이터를 추가할 수 있습니다.
파티션 은 스키마의 공통 속성으로 그룹화된 데이터입니다. 파티셔닝은 데이터를 여러 파일 경로로 나누며, 이 경로는 디렉토리처럼 처리됩니다. Data Virtualization 파티션을 검색하고 사용하여 쿼리가 처리해야 하는 데이터의 양을 줄일 수 있으므로 파티션 열에 술어를 사용하는 쿼리의 성능을 향상시킬 수 있습니다.

우수 사례

파일 형식

Data Virtualization PARQUET(또는 PARQUETFILE), ORC(최적화된 행 열 형식), CSV(쉼표로 구분된 값), TSV(탭으로 구분된 값) 및 JSON 파일 형식을 지원합니다. 다른 파일 형식은 지원되지 않습니다.

참고 : Data Virtualization 폴더 또는 계층 구조에 따라 데이터 파일을 가상화합니다. 폴더 또는 계층 구조 내의 모든 데이터 파일이 동일한 데이터 유형이고 동일한 형식을 따르는지 확인해야 합니다.

PARQUET(또는 PARQUETFILE)의 경우, 파일 확장자는 필요하지 않습니다. 메타데이터는 데이터 파일로부터 추출됩니다.
ORC의 경우에는 파일 확장자가 필요하지 않습니다. 메타데이터는 데이터 파일로부터 추출됩니다.
CSV및 TSV 파일의 경우:
- 다음과 같이 적절한 .csv 또는 .tsv 파일 확장자가 필요합니다.
  - CSV: .csv 파일 확장자가 필요하며 파일의 컨텐츠는 쉼표로 구분된 값의 스펙을 따라야 합니다.
  - TSV: .tsv 파일 확장자가 필요하며 파일의 컨텐츠는 탭으로 구분된 값의 스펙을 따라야 합니다.
- 선택적 매개변수를 사용하여 CSV및 TSV 파일의 필드 값을 둘러싸는 문자열 구분 기호 문자 (quoteChar) 를 지정할 수 있습니다.
  - quoteChar 가 지정된 경우 데이터 조회 성능에 부정적인 영향을 줄 수 있습니다.
  - 기본값은 분리문자 없음입니다 (지정되지 않음).
  - quoteChar 의 값은 공백 (공백), 백슬래시, 탭, 쉼표 또는 줄 바꾸기 문자 (\n) 가 될 수 없는 단일 문자여야 합니다.
  - 문자열 값에 문자열 구분 기호 (quoteChar) 가 포함된 경우 백슬래시 (\) 를 사용하여 문자열 구분 기호를 이스케이프할 수 있습니다.
JSON 파일의 경우 .json 파일 확장자가 필요합니다. 각 행이 유효한 JSON 오브젝트가 되도록 JSON 파일을 코딩해야 합니다. 줄은 줄 바꾸기 문자(\n)로 구분해야 합니다. JSON행 텍스트 형식(줄로 구분된 JSON)은 유일하게 지원되는 JSON 형식입니다. 이 형식은 한 번에 하나의 레코드를 처리할 수 있는 구조화된 데이터를 저장합니다.

주: 다른 모든 파일 형식은 오류를 리턴합니다. 자세한 내용은 Cloud Object Storage 에서 지원되지 않는 파일 형식을 사용하려고 할 때의 오류 메시지를 참조하십시오.

데이터 구성

Hive 호환성을 방해할 수 있으므로 컬럼 이름에 영숫자 문자를 사용하지 마십시오. 영숫자 문자나 밑줄 문자가 아닌 모든 문자는 _xNNNN, 인코딩되며, 여기서 _xNNNN 해당 문자의 16진수 값입니다. 열 이름을 올바르게 보려면 다음 단계를 완료하여 allownonalphanumeric 옵션을 사용으로 설정하십시오.
1. Data Virtualization 인스턴스c-db2u-dv-db2u-0)의 헤드 파드에 액세스합니다.
2. 다음 명령을 실행하여 allownonalphanumeric 옵션을 포함하도록 구성을 편집하십시오.
```
db2uctl adm bigsql config --key bigsql.catalog.identifier.mappingrules --value allownonalphanumeric,allowleadingdigits,allowreservedwords
```
3. 다음 명령을 실행하여 Big SQL를 다시 시작하십시오.
```
su - db2inst1 
bigsql stop ; 
bigsql start 
```
오브젝트 스토리지 데이터가 가상화된 테이블을 통해 액세스되는 경우 가상화하려는 파일은 단일 파일 경로 및 단일 버킷 내에 있어야 하며 버킷에는 카트에 추가하는 하나 이상의 파일이 포함되어야 합니다. 이 파일 경로의 모든 파일은 가상화된 테이블의 일부입니다. 테이블에 더 많은 데이터가 추가되면 (파일 경로에 새 파일이 작성됨) 가상화된 테이블에 액세스할 때 데이터가 표시됩니다. 파일 경로의 모든 파일은 하나의 테이블로 가상화되도록 동일한 파일 형식을 사용해야 합니다.
여러 파일 경로의 파일을 하나의 테이블로 가상화하려는 경우 모든 파일을 포함하는 버킷을 가상화할 수 있습니다. 예를 들어, 파일 경로 A/B/C/T1a, A/B/C/T1b, A/B/D/T1c 및 A/B/D/T1d이(가) 있는 경우 파일 경로 A/B/을(를) 가상화할 수 있습니다. 해당 경로 및 중첩 경로의 모든 파일은 액세스 가능한 오브젝트의 일부가 됩니다.
구분 ID및 대소문자를 혼합하여 사용하는 경우에도 동일한 이름으로 두 개의 오브젝트 (테이블, 스키마 또는 열) 를 작성하지 마십시오. 예를 들어, t1 테이블과 이름이 T1인 다른 테이블을 가질 수 없습니다. 이러한 이름은 오브젝트 스토리지(Hive)에서 중복된 이름으로 간주됩니다. 자세한 정보는 ID의 내용을 참조하십시오.
Db2 는 Hive 에서 지원하는 것보다 더 광범위한 유효한 구분 ID를 지원합니다. 오브젝트 저장소에서 가상화된 테이블을 작성할 때 지정되는 일부 ID 이름은 Hive 카탈로그에 허용되기 전에 조정될 수 있습니다. 맵핑은 자동으로 수행됩니다. 더 자세한 정보를 원하시면, 식별자를 참고하세요.
가상화된 테이블의 파일 경로에 새 데이터가 추가되면 다음 명령을 실행하여 새 데이터를 보도록 메타데이터 캐시가 업데이트되었는지 확인하십시오.
```
CALL SYSHADOOP.HCAT_CACHE_SYNC(<schema>, <object>)
```
더 자세한 정보는 HCAT_CACHE_SYNC 저장 프로시저를 참고하세요.
가상화된 테이블의 파일 경로에 새 파티션이 추가되면 가상화된 데이터 페이지의 오버플로우 메뉴에서 파티션 새로 고치기 를 클릭하여 새 파티션을 식별하십시오.
SQL 인터페이스에서 다음 명령을 실행하여 추가된 새 파티션을 식별할 수도 있습니다.
```
MSCK REPAIR TABLE <table-name> 
```
자세한 내용은 MSCK 수리 테이블을 참조하십시오.

쿼리 성능 최적화

ORC 또는 Parquet과 같은 압축 파일 형식을 사용하여 네트워크 트래픽을 최소화하면 조회 성능이 향상됩니다.

STRING 또는 TEXT 데이터 유형을 사용하지 마십시오. n이 열 데이터에 적합한 값으로 설정된 경우, VARCHAR(n) 데이터 유형을 사용하십시오. 다음 명령을 사용하여 컬럼에 적절한 길이를 정의하도록 테이블을 변경하십시오.

 ALTER TABLE <schema>.<table> ALTER COLUMN <col> SET DATA TYPE VARCHAR(<size>)

Hive 스타일 파티셔닝을 사용하여 데이터를 파티셔닝합니다. 파티션된 데이터는 공통 속성으로 그룹화됩니다. Data Virtualization 파티션을 사용하여 쿼리가 처리해야 하는 데이터의 양을 줄일 수 있습니다. 전체 데이터 세트를 조회하는 것이 불가능하거나 필요하지 않을 수 있습니다. 파티션 컬럼을 포함하는 쿼리에서 술어를 사용하여 성능을 향상시킬 수 있습니다.
예를 들어, 연도 컬럼에서 파티션된 school_records 테이블은 연도별로 값을 별도의 파일 경로로 분리합니다. WHERE 조건 (예: YEAR=1993, YEAR IN (1996,1995)또는 YEAR BETWEEN 1992 AND 1996 ) 은 조회를 분석하기 위해 적절한 파일 경로의 데이터만 스캔합니다.
파티션된 컬럼 유형을 정확하게 정의하십시오. 기본적으로 파티션된 문자 열은 STRING 유형으로 가정되며, 이는 권장되지 않습니다. 파티션된 컬럼을 적절한 데이터 유형으로 재정의하십시오.
쿼리 중인 데이터에 대한 통계를 수집합니다. Data Virtualization 사용하다 ANALYZE 명령을 사용하여 오브젝트 스토리지에 있는 가상화된 테이블에 대한 통계를 수집합니다. 웹 클라이언트에서 또는 SQL을 사용하여 통계를 수집할 수 있습니다. 더 자세한 정보는 Data Virtualization 의 통계 수집을 참고하세요.

제한사항

Data Virtualization CSV, TSV 또는 JSON 형식의 텍스트 파일에 대해 UTF-8 문자 인코딩만 지원됩니다. Cloud Object Storage 2진 형식(예: ORC 또는 PARQUET)은 문자 유형을 투명하게 인코딩하므로 영향을 받지 않습니다.
Data Virtualization 객체 저장소를 통해 가상화된 테이블에서 TIME 데이터 유형을 지원하지 않습니다.
클라우드 오브젝트 스토리지의 자산 미리보기는 테이블의 처음 200개열만 표시합니다.
Cloud Object Storage에 대한 연결을 제거하기 전에 오브젝트 스토리지 연결에서 모든 가상화된 테이블을 제거해야 합니다. 연결이 제거되고 해당 연결에서 테이블을 제거하려고 하면 오류가 표시됩니다. 오브젝트 스토리지에서 가상화된 테이블을 제거할 때 자격 증명 오류 메시지가 표시됩니다.
버킷이 연결 특성에 지정되지 않은 경우 연결은 글로벌입니다. 이 경우 파일 경로에 버킷 이름을 포함하십시오. Data Virtualization 인스턴스에서 최대 하나의 글로벌 연결을 지정할 수 있습니다.

참조: CREATE TABLE (HADOOP) 구문의 제한 사항.

주제가 도움이 되었습니까?