Planificación de la experiencia de los cuadernos y los scripts

Última actualización: 21 nov 2024
Planificación de la experiencia de los cuadernos y los scripts

Para planificar el uso de cuadernos y scripts de Jupyter, primero hay que entender las opciones que tenemos, las implicaciones de esas opciones y cómo afectan al orden de las tareas de implementación.

Puede realizar la mayoría de las tareas relacionadas con cuadernos y scripts con el rol de Editor o Administrador en un proyecto de análisis.

Antes de empezar a trabajar con cuadernos y scripts, tenga en cuenta las siguientes preguntas, ya que la mayoría de las tareas deben completarse en un orden determinado:

  • ¿En qué lenguaje de programación desea trabajar?
  • ¿Qué harán sus cuadernos?
  • ¿Con qué bibliotecas desea trabajar?
  • ¿Cómo puede utilizar el cuaderno o script en Cloud Pak for Data as a Service?

Para crear un plan de uso de cuadernos Jupyter o scripts, determine cuáles de las siguientes tareas debe completar.

Tarea ¿Obligatoria? Temporización:
Creación de un proyecto Esta debe ser su primera tarea
Adición de activos de datos al proyecto Antes de empezar a crear cuadernos
Selección de un lenguaje de programación Antes de seleccionar la herramienta
Selección de una herramienta Después de seleccionar el idioma
Comprobación de los paquetes de biblioteca Antes de seleccionar un entorno de ejecución
Selección de un entorno de ejecución adecuado Antes de abrir el entorno de desarrollo
Gestión del ciclo de vida de cuadernos y scripts Nee Cuando el cuaderno o script está listo
Usos para cuadernos y scripts después de la creación Nee Cuando el cuaderno está listo

Creación de un proyecto

Debe crear un proyecto para poder empezar a trabajar en cuadernos.

Proyectos Puede crear un proyecto vacío, uno desde el archivo o desde el URL. En este proyecto:

  • Puede utilizar Jupyter Notebook y RStudio.
  • Los cuadernos son activos en el proyecto.
  • La colaboración del cuaderno se basa en el bloqueo por parte del usuario a nivel de proyecto.
  • Los scripts R y las aplicaciones Shiny no son activos en el proyecto.
  • No hay colaboración en scripts R o aplicaciones Shiny.

Selección de un lenguaje de programación

Puede elegir trabajar en los siguientes idiomas:

Cuadernos
Python y R
Scripts
Scripts R y aplicaciones R Shiny

Selección de una herramienta

En Cloud Pak for Data as a Service, puede trabajar con cuadernos y scripts en la herramienta siguiente:

Editor de cuaderno de Jupyter
En el editor de Jupyter Notebook , puede crear Python o cuadernos R. Los cuadernos son activos de un proyecto. La colaboración sólo es a nivel de proyecto. El cuaderno está bloqueado por un usuario cuando se abre y sólo lo puede desbloquear el mismo usuario o un administrador de proyecto.
RStudio
En RStudio, puede crear scripts R y aplicaciones Shiny. Los scripts R no son activos en un proyecto, lo que significa que no hay ninguna colaboración a nivel de proyecto.

Comprobación de los paquetes de biblioteca

Cuando abre un cuaderno en un entorno de ejecución, tiene acceso a una gran selección de paquetes de biblioteca de ciencia de datos preinstalados. Muchos entornos también incluyen bibliotecas proporcionadas por IBM sin cargo adicional, como por ejemplo:

  • La biblioteca Watson Natural Language Processing en entornos Python
  • Bibliotecas para ayudarle a acceder a activos de proyecto
  • Bibliotecas para series temporales o análisis geoespacial en entornos Spark

Para obtener una lista de los paquetes de biblioteca y las versiones incluidas en una plantilla de entorno, seleccione la plantilla en la página Plantillas en la pestaña Gestionar de la página Entornos del proyecto.

Si faltan bibliotecas en una plantilla, puede añadirlas:

A través del cuaderno o script
Puede utilizar mandatos de instalación de paquetes familiares para su entorno. Por ejemplo, en los cuadernos Python , puede utilizar mamba, conda o pip.
Mediante la creación de una plantilla de entorno personalizada
Cuando crea una plantilla personalizada, puede crear una personalización de software y añadir las bibliotecas que desea incluir. Para obtener detalles, consulte Personalización de plantillas de entorno.

Elección de un entorno de ejecución

La elección del entorno de cálculo para el cuaderno depende de la cantidad de datos que desea procesar y de la complejidad de los procesos de análisis de datos.

watsonx.ai Studio ofrece muchas plantillas de entorno predeterminadas con diferentes tamaños de hardware y configuraciones de software para ayudarte a empezar rápidamente, sin tener que crear tus propias plantillas. Estas plantillas incluidas se listan en la página Plantillas de la pestaña Gestionar de la página Entornos del proyecto. Para obtener más información sobre los entornos incluidos, consulte Entornos.

Si las plantillas disponibles no se ajustan a sus necesidades, puede crear plantillas personalizadas y determinar el tamaño de hardware y la configuración de software. Para obtener detalles, consulte Personalización de plantillas de entorno.

Importante: Asegúrese de que el entorno tenga suficiente memoria para almacenar los datos que carga en el cuaderno. A menudo esto significa que el entorno debe tener una memoria significativamente mayor que el tamaño total de los datos cargados en el cuaderno porque algunas infraestructuras de datos, como los pandas, pueden contener varias copias de los datos en la memoria.

Utilización de datos

Para trabajar con datos en un cuaderno:

  • Añada los datos al proyecto, lo que convierte los datos en un activo de proyecto. Consulte Añadir datos a un proyecto para ver los distintos métodos para añadir datos a un proyecto.
  • Utilice el código generado que carga datos del activo en una estructura de datos del cuaderno. Para obtener una lista de los tipos de datos soportados, consulte Soporte de carga de datos.
  • Escriba su propio código para cargar datos si el origen de datos no se añade como activo de proyecto o si el soporte para añadir código generado no está disponible para el activo de proyecto.

Gestión del ciclo de vida de los cuadernos y scripts

Después de crear y probar un cuaderno en la herramienta, puede:

Los scripts R y las aplicaciones Shiny no se pueden publicar o compartir utilizando la funcionalidad de un proyecto.

Se utiliza para cuadernos y scripts después de la creación

Las opciones para un cuaderno que se crea y está listo para su uso en Cloud Pak for Data as a Service incluyen:

  • Ejecutarlo como un trabajo en un proyecto. Consulte Creación y gestión de trabajos en un proyecto.

  • Ejecutarlo como parte de un Pipelines. Consulte Configuración de nodos de interconexión.

    Para asegurarse de que un cuaderno se puede ejecutar como un trabajo o en un conducto:

    • Asegúrese de que ninguna celda requiere una entrada interactiva por parte de un usuario.
    • Asegúrese de que el cuaderno registra suficiente información detallada para comprender el progreso y las anomalías consultando el registro.
    • Utilice variables de entorno en el código para acceder a las configuraciones si un cuaderno o script las requiere, por ejemplo, el archivo de datos de entrada o el número de ejecuciones de entrenamiento.
  • Uso del cliente watsonx.ai Runtime Python para construir, entrenar y desplegar sus modelos. Ver muestras y ejemplos del clientewatsonx.ai Runtime Python.

  • Uso de la API REST en tiempo de ejecución de watsonx.ai para crear, entrenar y desplegar sus modelos.

Los scripts R y las aplicaciones Shiny solo se pueden crear y utilizar en el IDE de RStudio en Cloud Pak for Data as a Service. No puede crear trabajos para scripts R o despliegues R Shiny.

Tema padre: Cuadernos y scripts