Conexión de Apache HDFS

Para acceder a los datos en Apache HDFS, cree un activo de conexión para el mismo.

Apache HDFS (Hadoop Distributed File System) es un sistema de archivos distribuido diseñado para que se ejecute en artículos de hardware. Apache HDFS se denominaba anteriormente Hortonworks HDFS.

Crear una conexión con Apache HDFS

Para crear el activo de conexión, necesita estos detalles de conexión:

  • URL de WebHDFS para acceder a HDFS
  • Base de datos de Hive
  • Host de Hive: Nombre de host o dirección IP del servidor Apache Hive
  • Número de puerto de Hive y vía de acceso HTTP
  • Usuario y contraseña de Hive
  • Nombre de usuario y contraseña
  • Certificado SSL (si lo necesita el servidor de base de datos)

Para Conectividad privada, para conectarse a una base de datos que no se exterioriza a Internet (por ejemplo, detrás de un cortafuegos), debe configurar una conexión segura.

Elija el método para crear una conexión basada en el lugar en el que se encuentra en la plataforma

En un proyecto Pulse Añadir al proyecto > Conexión. Consulte Adición de una conexión a un proyecto.


En un catálogo Pulse Añadir al catálogo > Conexión . Consulte [Adición de un activo de conexión a un catálogo] (../catalog/c-add-conn.html).


En un espacio de despliegue Pulse Añadir al espacio > Conexión. Consulte [Adición de datos a un espacio de despliegue] (../analyze-data/deploy-data-sources.html#add).


En el catálogo de activos de plataforma Pulse Nueva conexión. Consulte [Adición de conexiones de plataforma] (platform-conn.html).

Paso siguiente: Añadir activos de datos desde la conexión

Dónde puede utilizar esta conexión

Puede utilizar conexiones Apache HDFS en los siguientes espacios de trabajo y herramientas:

Proyectos

  • Data Refinery (Watson Studio o Watson Knowledge Catalog)
  • DataStage (DataStage)
  • Importación de medatatos (Watson Knowledge Catalog)
  • SPSS Modeler (Watson Studio)

Catálogos

  • Catálogo de activos de la plataforma
  • Otros catálogos (Watson Knowledge Catalog)

Configuración de HDFS

Instalar y configurar un clúster de Hadoop

Tipos de archivo soportado

La conexión Apache HDFS da soporte a estos tipos de archivo: Avro, CSV, Texto delimitado, Excel, JSON, ORC, Parquet, SAS, SAV, SHP y XML.

Más información

Guía del usuario de Apache HDFS

Tema principal: Conexiones soportadas