Puede integrar datos en cuadernos accediendo a los datos desde un archivo local, desde conjuntos de datos libres o desde una conexión de origen de datos. Usted carga esos datos en una estructura de datos o contenedor en el cuaderno, por ejemplo, un pandas.DataFrame, numpy.array, Spark RDD, o Spark DataFrame.
Para trabajar con datos en un cuaderno, puede elegir entre las opciones siguientes:
Opción | Método recomendado | Requisitos | Detalles |
---|---|---|---|
Añadir datos de un archivo en el sistema local | Añada un fragmento de código que cargue los datos | El archivo debe existir como un activo en el proyecto | Añada un archivo desde el sistema local y, a continuación, Utilice un fragmento de código para cargar los datos |
Añadir datos de un conjunto de datos libre desde el concentrador de recursos | Añada un fragmento de código que cargue los datos | El conjunto de datos (archivo) debe existir como activo en el proyecto | Añadir un conjunto de datos libre desde el concentrador de recursos y, a continuación, Utilizar un fragmento de código para cargar los datos |
Cargar datos desde conexiones de origen de datos | Añada un fragmento de código que cargue los datos | La conexión debe existir como un activo en el proyecto | Añada una conexión al proyecto y, a continuación, añada un fragmento de código que cargue los datos de la conexión de origen de datos |
Acceder a activos y metadatos de proyecto mediante programación | Utilice ibm-watson-studio-lib |
El activo de datos debe existir en el proyecto | Utilice la biblioteca ibm-watson-studio-lib para interactuar con activos de datos |
Crear y utilizar datos de almacén de características | Utilizar funciones de biblioteca de assetframe-lib |
El activo de datos debe existir en el proyecto | Utilice la biblioteca assetframe-lib para Python para crear y utilizar datos de almacén de características |
Acceso a datos utilizando una función de API o un mandato de sistema operativo | Por ejemplo, utilice wget |
N/A | Acceda a los datos utilizando una función de API o un mandato de sistema operativo |
Adición de un archivo desde el sistema local
Para añadir un archivo desde el sistema local al proyecto utilizando el editor de cuadernos Jupyterlab:
- Abra el cuaderno en modalidad de edición.
- En la barra de herramientas, pulse el icono Cargar activo en proyecto y añada el archivo.
Cargar conjuntos de datos desde el concentrador de recursos
Los conjuntos de datos del concentrador de recursos contienen datos abiertos. Vea este breve vídeo para ver cómo trabajar con conjuntos de datos públicos en el concentrador de recursos.
Este vídeo proporciona un método visual para aprender los conceptos y tareas de esta documentación.
Transcripción de vídeo Hora Transcripción 00:00 Este vídeo muestra cómo acceder a conjuntos de datos públicos en la galería Cloud Pak for Data as a Service . 00:06 Inicie en el concentrador de recursos y utilice los filtros para ver sólo los conjuntos de datos. 00:13 Aquí, encontrará algunos conjuntos de datos enriquecidos que puede utilizar en el análisis. 00:17 Por ejemplo, puede buscar "economía" o "población" o "tiempo" o "trabajos". 00:28 Esto parece un conjunto de datos interesante. 00:30 Ábralo y obtenga una vista preliminar de los datos. 00:34 Desde aquí, puede compartir el conjunto de datos en redes sociales, obtener un enlace directo al conjunto de datos o descargar el conjunto de datos. 00:45 También puede copiar el conjunto de datos en un proyecto específico. 00:52 Ahora, vaya a ese proyecto. 00:55 Y en la pestaña "Activos", verá que el conjunto de datos se ha añadido a la sección de activos de datos. 01:01 A continuación, añada un nuevo cuaderno. 01:05 El título de este cuaderno será "Tasas de desempleo". 01:09 Seleccione un entorno de ejecución y un idioma. 01:14 Cuando esté listo, cree el cuaderno. 01:20 Cuando el cuaderno se cargue, acceda a los orígenes de datos y localice el archivo de desempleo. 01:27 Pulse "Insertar en código" y elija cómo desea insertar los datos. 01:33 Las opciones de este recuadro desplegable dependen del idioma utilizado en este cuaderno. 01:38 Observe que el código insertado incluye las credenciales que necesitará para leer el archivo de datos de la instancia de Object Storage. 01:45 Al ejecutar el código, se muestran las cinco primeras filas. 01:50 Ahora, está preparado para empezar a analizar cualquiera de los conjuntos de datos enriquecidos en el centro de recursos. 01:56 Busque más vídeos en la documentación de Cloud Pak for Data as a Service.
Para añadir un conjunto de datos desde el concentrador de recursos al proyecto:
En el menú de navegación, seleccione Centro de recursos.
Busque la tarjeta para el conjunto de datos que desea añadir.
Pulse Añadir a proyecto, seleccione el proyecto y pulse Añadir. Pulsar Ver proyecto le llevará a la página Visión general del proyecto. El activo de datos se añade a la lista de activos de datos de la página Activos del proyecto.
Carga de datos desde archivos
Requisitos previos El archivo debe existir como un activo en el proyecto. Para obtener detalles, consulte Adición de un archivo desde el sistema local o Carga de un conjunto de datos desde el concentrador de recursos.
Para cargar datos de un archivo de proyecto en el cuaderno:
- Abra el cuaderno en modalidad de edición.
- Haga clic en el icono Fragmentos de código , haga clic en Leer datos y, a continuación, seleccione el archivo de datos de su proyecto. Si desea cambiar la selección, utilice el icono Editar .
- En la lista desplegable Cargar como , seleccione la opción de carga que prefiera. Si selecciona Credenciales, sólo se generarán las credenciales de acceso a archivo. Para obtener detalles, consulte Adición de credenciales.
- Pulse una celda de código vacía en el cuaderno y, a continuación, pulse Insertar código en celda para insertar el código generado. Como alternativa, pulse para copiar el código generado en el portapapeles y, a continuación, pegue el código en el cuaderno.
El código generado sirve como un inicio rápido para empezar a trabajar con un conjunto de datos. Para los sistemas de producción, revise cuidadosamente el código insertado para determinar si desea escribir su propio código que se adapte mejor a sus necesidades.
Para saber qué estructuras de datos se generan para qué lenguaje de cuaderno y formato de datos, consulte Soporte de carga de datos.
Carga de datos desde conexiones de origen de datos
Requisitos previos Para poder cargar datos desde un servicio de datos de IBM o desde un origen de datos externo, debe crear o añadir una conexión al proyecto. Consulte Adición de conexiones a proyectos.
Para cargar datos en una estructura de datos de su cuaderno desde una conexión de origen de datos:
- Abra el cuaderno en modalidad de edición.
- Haga clic en el icono Fragmentos de código , haga clic en Leer datos y, a continuación, seleccione la conexión de la fuente de datos de su proyecto.
- Seleccione el esquema y elija una tabla. Si desea cambiar la selección, utilice el icono Editar .
- Seleccione la opción de carga. Si selecciona Credenciales, sólo se generarán metadatos. Para obtener detalles, consulte Adición de credenciales.
- Pulse una celda de código vacía en el cuaderno y, a continuación, inserte el código en la celda. Como alternativa, pulse para copiar el código generado en el portapapeles y, a continuación, pegue el código en el cuaderno.
- Si es necesario, introduzca sus credenciales personales para las conexiones de datos bloqueadas que estén marcadas con el icono de llave . Se trata de un paso único que desbloquea permanentemente la conexión en su nombre. Una vez que haya desbloqueado la conexión, dejará de aparecer el icono de llave. Para obtener más información, consulte Adición de conexiones a proyectos.
El código generado sirve como un inicio rápido para empezar a trabajar con una conexión. Para los sistemas de producción, revise cuidadosamente el código insertado para determinar si desea escribir su propio código que se adapte mejor a sus necesidades.
Encontrará información sobre propiedades de conexión individuales en https://dataplatform.cloud.ibm.com/connections/docs
Para saber qué estructuras de datos se generan para qué lenguaje de cuaderno y formato de datos, consulte Soporte de carga de datos.
Adición de credenciales
Puede generar su propio código para acceder al archivo ubicado en su IBM Cloud Object Storage o a un archivo accesible a través de una conexión. Esto es útil cuando, por ejemplo, la herramienta de generación de fragmentos de código no soporta el formato de archivo. Con las credenciales, puede escribir su propio código para cargar los datos en una estructura de datos en una celda del cuaderno.
Para añadir las credenciales:
- Haga clic en el icono Fragmentos de código " " y, a continuación, en Leer datos.
- Pulse una celda de código vacía en el cuaderno, seleccione Credenciales como opción de carga y, a continuación, cargue las credenciales en la celda. También puede pulsar para copiar las credenciales en el portapapeles y, a continuación, pegarlas en el cuaderno.
- Inserte sus credenciales en el código del cuaderno para acceder a los datos. Por ejemplo, consulte este código en un blog para Python.
Utilizar una función de API o un mandato de sistema operativo para acceder a los datos
Puede utilizar funciones de API o mandatos de sistema operativo en el cuaderno para acceder a los datos, por ejemplo, el mandato wget
para acceder a los datos utilizando los protocolos HTTP, HTTPS o FTP. Cuando utilice estos tipos de funciones y mandatos de API, debe incluir código que establezca la señal de acceso del proyecto. Consulte Añadir manualmente la señal de acceso al proyecto.
Para obtener información de referencia sobre la API, consulte Datos y AI Common Core API.
Tema padre: Cuadernos y scripts