Apache HDFS 연결 | IBM Cloud Pak for Data as a Service

영어 버전 문서로 돌아가기

Apache HDFS 연결

Apache HDFS의 데이터에 액세스하려면 이에 대한 연결 자산을 작성하십시오.

Apache Hadoop Distributed File System (HDFS) 은 상용 하드웨어에서 실행되도록 설계된 분산 파일 시스템입니다. Apache HDFS는 이전에 Hortonworks HDFS였습니다.

Apache HDFS에 대한 연결 작성

연결 자산을 작성하려면 다음 연결 세부사항이 필요합니다. WebHDFS URL 은 필수입니다.
연결 양식에서 사용 가능한 특성은 Hive 데이터 소스에 테이블을 쓸 수 있도록 Apache Hive에 연결 을 선택하는지 여부에 따라 다릅니다.

HDFS에 액세스하기 위한 WebHDFS URL .
Hive 호스트: Apache Hive 서버의 호스트 이름 또는 IP 주소입니다.
Hive 데이터베이스: Apache Hive의 데이터베이스.
Hive 포트 번호: Apache Hive 서버의 포트 번호. 기본값은 10000입니다.
Hive HTTP 경로: 서버가 HTTP 전송 모드에 대해 구성된 경우 게이트웨이/기본/하이브 (gateway/default/hive) 와 같은 엔드포인트의 경로입니다.
SSL 인증서 ( Apache Hive 서버에서 필요한 경우).

사용자 이름은 필수입니다.

개인 연결의 경우 인터넷에 외부화되지 않은 데이터베이스(예: 방화벽 뒤)에 연결하려면 보안 연결을 설정해야 합니다.

다음 작업 공간 및 도구에서 Apache HDFS 연결을 사용할 수 있습니다.

프로젝트

Catalogs

Apache HDFS 연결은 Avro, CSV, Delimited text, Excel, JSON, ORC, Parquet, SAS, SAV, SHP 및 XML 파일 유형을 지원합니다.

플랫 파일 외에도 Apache HDFS 연결은 델타 레이크 및 Iceberg와 같은 데이터 레이크 테이블 형식을 지원합니다.

상위 주제: 지원되는 연결