0 / 0
Volver a la versión inglesa de la documentación
Entornos de Spark
Última actualización: 07 oct 2024
Entornos Spark en un proyecto

Si su cuaderno incluye las API de Spark API, o si desea crear modelos de aprendizaje de máquina o flujos de modelos con tiempos de ejecución de Spark, necesita asociar la herramienta a un servicio o entorno de Spark. Con los entornos de Spark, puede configurar el tamaño del controlador de Spark y el tamaño y número de los ejecutores.

Opciones de Spark

En Watson Studio, puede utilizar:

  • Entornos de Spark ofrecidos bajo Watson Studio.

    Todos los usuarios de Watson Studio pueden crear entornos de Spark con una variedad de configuraciones de hardware y software. Los entornos de Spark ofrecen kernels de Spark como un servicio (SparkR, PySpark y Scala). Cada kernel obtiene un clúster Spark dedicado y ejecutores de Spark. Los tiempos de ejecución de Spark consumen horas de unidad de capacidad (CUH) de las que se realiza un seguimiento.

  • Servicios Spark ofrecidos a través de IBM Cloud.

    Con IBM Analytics Engine, se le ofrece Hortonworks Data Platform en IBM Cloud. Se obtiene una máquina virtual por nodo de cálculo de clúster y su propio HDFS local. Obtiene Spark y todo el ecosistema Hadoop. Se le proporciona acceso shell y también puede crear cuadernos. IBM Analytics Engine no se ofrece bajo Watson Studio; debe adquirirse por separado a través de IBM Cloud. Consulte Adición de servicios asociados.

Definiciones de entorno predeterminadas

Puede utilizar las definiciones de entorno de Spark como inicio rápido en los cuadernos de Spark en las herramientas de Watson Studio, sin tener que crear sus propias definiciones de entorno. Las definiciones de entorno predeterminadas se listan en la página Entornos del proyecto.

Entorno Configuración de hardware
Default Spark 3.0 & Python 3.7 2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
Default Spark 3.0 & R 3.6 2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
Default Spark 3.0 & Scala 2.12 2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
Default Spark 2.4 & Python 3.7 2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
Default Spark 2.4 & R 3.6 2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
Default Spark 2.4 & Scala 2.11 2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
Default Spark 2.3 & Scala 2.11 2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM
Default Spark 2.3 & R 2.4 2 Ejecutores cada uno: 1 vCPU y 4 GB de RAM;
Controlador: 1 vCPU y 4 GB de RAM

Nota: Cuando se inicia un entorno Spark, se necesitan recursos adicionales para Jupyter Enterprise Gateway, Spark Master y los demonios Spark worker. Estos recursos adicionales son 1 vCPU y 2 GB de RAM para el controlador y 1 GB de RAM para cada ejecutor. Debe tener en cuenta estos recursos adicionales al seleccionar el tamaño de hardware de un entorno de Spark. For example: if you create a notebook and select Default Spark 3.0 & Python 3.7, the Spark cluster consumes 3 vCPU and 12 GB RAM but, as 1 vCPU and 4 GB RAM are required for the extra resources, the resources remaining for the notebook are 2 vCPU and 8 GB RAM.

Entornos de cuadernos y de Spark

Cuando crea un cuaderno, puede seleccionar el tiempo de ejecución de Spark en que desea ejecutar el cuaderno. Puede seleccionar una definición de entorno de Spark predeterminada o una definición de entorno de Spark que ha creado en la página Entornos de su proyecto.

Puede crear más de un cuaderno y seleccionar la misma definición de entorno de Spark. Cada cuaderno asociado al entorno tiene su propio clúster Spark dedicado y no se comparte ningún recurso. Por ejemplo, si crea dos cuadernos que utilizan la misma definición de entorno de Spark, se inician dos clústeres de Spark, uno para cada cuaderno, lo que significa que cada cuaderno tiene su propio controlador Spark y su propio conjunto de ejecutores Spark.

Puede aprender a utilizar entornos de Spark en Watson Studio abriendo los siguientes cuadernos de ejemplo:

Sistemas de archivos en un clúster Spark

Si desea compartir archivos entre ejecutores y el controlador o kernel de un clúster de Spark, puede utilizar el sistema de archivos compartidos en /home/spark/shared.

Si desea utilizar sus propias bibliotecas personalizadas, puede almacenarlas en /home/spark/shared/user-libs/. Hay cuatro subdirectorios bajo /home/spark/shared/user-libs/ que están preconfigurados para que estén disponibles para los tiempos de ejecución de Python, R y Scala o Java.

Las tablas siguientes listan los subdirectorios preconfigurados donde puede añadir sus bibliotecas personalizadas.

Directorio Tipo de biblioteca
/home/spark/shared/user-libs/python3/ Bibliotecas Python 3
/home/spark/shared/user-libs/R/ Paquetes R
/home/spark/shared/user-libs/spark2/ Archivos JAR de Java o Scala

Para compartir las bibliotecas entre un controlador Spark y los ejecutores:

  1. Descargue sus bibliotecas personalizadas o archivos JAR en el directorio preconfigurado adecuado.
  2. Reinicie el kernel desde el menú del cuaderno pulsando Kernel > Reiniciar kernel. Esto carga sus bibliotecas personalizadas o archivo JAR en Spark.

Tenga en cuenta que estas bibliotecas no son persistentes. Cuando detenga el tiempo de ejecución del entorno y vuelva a reiniciarlo más tarde, deberá volver a cargar las bibliotecas.

Registros de tiempo de ejecución

Cuando se detiene un tiempo de ejecución de Spark, los registros acumulados se añaden al grupo de IBM Cloud Object Storage asociado al proyecto. Si desea ver estos registros, descárguelos del grupo de IBM Cloud Object Storage.

Próximos pasos

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información