conexión a Spark SQL

Última actualización: 17 mar 2025
Conexión a Spark SQL

Spark SQL proporciona una interfaz de programación para trabajar con datos estructurados mediante el uso de SQL, marcos de datos y conjuntos de datos. Spark SQL admite procesamiento por lotes y streaming para un rendimiento optimizado.

El conector Spark SQL requiere información específica para crear una conexión con él en Data Virtualization. Para obtener más información, consulte Fuentes de datos en el almacenamiento de objetos en Data Virtualization.

Antes de empezar

Necesitará los siguientes datos de conexión para esta conexión:
  • Nombre de host
  • Número de puerto
  • Base de datos de destino
  • Nombre de usuario y contraseña

Procedimiento

Para conectarse a Spark SQL en Data Virtualization, siga estos pasos.

  1. En el menú de navegación, haga clic en Datos > Data virtualization. Aparecerá la página de fuentes de datos.

  2. Haga clic en Añadir conexión > Nueva conexión para ver una lista de fuentes de datos.

  3. Seleccione la conexión de origen de datos Spark SQL .

  4. Especifique el nombre y la descripción de la conexión

  5. Introduzca el nombre de host, el número de puerto, la base de datos de destino y las credenciales de autenticación (nombre de usuario y contraseña) para la conexión.

  6. Spark SQL tiene dos opciones de autenticación para establecer la conexión:
    • Autentíquese utilizando su nombre de usuario y contraseña.

    • Autentíquese utilizando Kerberos con el nombre principal de servicio (SPN), el principal de usuario y el keytab.

      Nota:

      Para utilizar el método de autenticación Kerberos , debe configurar la autenticación Kerberos de antemano en Data Virtualization. Consulte Autenticación de Kerberos en la nube para Data Virtualization para obtener más información.

  7. Si la conexión requiere un certificado SSL personalizado, introduzca el certificado en el campo Certificado SSL.

  8. Pulse Crear para añadir la conexión al entorno de origen de datos.

Resultado

Ahora puede utilizar su base de datos Spark SQL como fuente de datos en Data Virtualization.