0 / 0
Go back to the English version of the documentation
在 Notebook 中装入和访问数据
Last updated: 2024年11月28日
在 Notebook 中装入和访问数据

您可以通过从本地文件,免费数据集或数据源连接访问数据,将数据集成到 Notebook 中。 您可以将数据加载到笔记本中的数据结构或容器中,例如pandas.DataFrame, numpy.array、Spark RDD 或 SparkDataFrame。

要在 Notebook 中处理数据,可以在以下选项之间进行选择:

向 Notebook 添加数据的建议方法
选项 建议的方法 要求 详细信息
在本地系统上添加文件中的数据 添加用于装入数据的 代码片段 该文件必须作为项目中的资产存在 从本地系统添加文件 ,然后 使用代码片段来装入数据
从资源中心添加来自免费数据集的数据 添加用于装入数据的 代码片段 数据集 (文件) 必须作为资产存在于项目中 从资源中心添加免费数据集 ,然后 使用代码片段来装入数据
从数据源连接装入数据 添加用于装入数据的 代码片段 连接必须作为资产存在于项目中 向项目添加连接 ,然后 添加用于从数据源连接装入数据的代码片段
以编程方式访问项目资产和元数据 使用 ibm-watson-studio-lib 数据资产必须存在于项目中 使用 ibm-watson-studio-lib 库与数据资产进行交互
创建和使用功能部件存储数据 使用 assetframe-lib 库函数 数据资产必须存在于项目中 使用 Python 的 assetframe-lib 库来创建和使用功能部件存储数据
使用 API 函数或操作系统命令访问数据 例如,使用 wget 不适用 使用 API 函数或操作系统命令访问数据
重要信息: 请确保启动 Notebook 的环境中有足够的内存来存储装入到 Notebook 的数据。 环境中的内存必须比装入到 Notebook 中的数据的总大小大得多。 某些数据框架 (如 pandas) 可以将数据的多个副本保存在内存中。

从本地系统添加文件

要使用 Jupyterlab 笔记本编辑器将文件从本地系统添加到项目:

  1. 以编辑方式打开 Notebook。
  2. 从工具栏中,单击 将资产上载到项目 图标 "将资产上载到项目" 图标 ,然后添加文件。
提示: 您还可以将文件拖到 Notebook 侧边栏中。

从资源中心装入数据集

资源中心上的数据集包含开放数据。 观看此简短视频,以了解如何使用资源中心中的公共数据集。

此视频提供了一种可视方法来学习本文档中的概念和任务。

要将数据集从资源中心添加到项目,请执行以下操作:

  1. 从导航菜单中选择资源中心。

  2. 找到要添加的数据集的卡片

    数据集的视图

  3. 单击 添加到项目,选择项目,然后单击 添加。 单击查看项目将转至“项目概述”页面。 数据资产将添加到项目的 "资产" 页面上的数据资产列表中。

从文件装入数据

先决条件 该文件必须作为资产存在于项目中。 有关详细信息,请参阅 从本地系统添加文件从资源中心装入数据集

要将数据从项目文件装入到 Notebook ,请执行以下操作:

  1. 以编辑方式打开 Notebook。
  2. 单击代码片段图标代码片段图标,单击阅读数据,然后从项目中选择数据文件。 如果要更改选择,请使用 编辑 图标。
  3. 装入方式 下拉列表中,选择您首选的装入选项。 如果选择 凭证,那么将仅生成文件访问凭证。 有关详细信息,请参阅 添加凭证
  4. 单击 Notebook 中的空代码单元格,然后单击 将代码插入单元格 以插入生成的代码。 或者,单击以将生成的代码复制到剪贴板,然后将代码粘贴到 Notebook 中。

生成的代码充当开始使用数据集的快速入门。 对于生产系统,请仔细查看插入的代码,以确定是否编写自己的代码以更好地满足您的需求。

要了解为哪些 Notebook 语言和数据格式生成了哪些数据结构,请参阅 数据装入支持

从数据源连接装入数据

先决条件 您必须先创建或添加与项目的连接,然后才能从 IBM 数据服务或外部数据源装入数据。 请参阅添加项目连接

要将来自现有数据源连接的数据装入到 Notebook 中的数据结构中,请完成下列步骤:

  1. 以编辑方式打开 Notebook。
  2. 单击代码片段图标代码片段图标,单击读取数据,然后从项目中选择数据源连接。
  3. 选择模式,然后选择表。 如果要更改选择,请使用 编辑 图标。
  4. 选择装入选项。 如果选择 凭证,那么将仅生成元数据。 有关详细信息,请参阅 添加凭证
  5. 单击 Notebook 中的空代码单元格,然后将代码插入到该单元格中。 或者,单击以将生成的代码复制到剪贴板,然后将代码粘贴到 Notebook 中。
  6. 如有必要,请为标有密钥图标密钥图标 的锁定数据连接输入个人凭证。 这是一次性步骤,用于为您永久解锁该连接。 解锁该连接后,将不再显示此密钥图标。 有关更多信息,请参阅 向项目添加连接

生成的代码用于快速开始使用连接。 对于生产系统,请仔细查看插入的代码,以确定是否编写自己的代码以更好地满足您的需求。

有关各连接属性的信息,请访问https://dataplatform.cloud.ibm.com/connections/docs

要了解为哪些 Notebook 语言和数据格式生成了哪些数据结构,请参阅 数据装入支持

添加凭证

您可以生成自己的代码,以访问位于IBM Cloud Object Storage中的文件或通过连接访问的文件。 例如,当片段生成工具不支持您的文件格式时,这很有用。 通过凭证,您可以编写自己的代码以将数据装入到 Notebook 单元中的数据结构中。

要添加凭证:

  1. 点击代码片段图标 "代码片段图标,然后点击读取数据
  2. 单击 Notebook 中的空代码单元格,选择 凭证 作为装入选项,然后将凭证装入到单元格。 您还可以单击以将凭证复制到剪贴板,然后将其粘贴到 Notebook 中。
  3. 将凭证插入 Notebook 中的代码以访问数据。 例如,请参阅 Python 的博客中的此代码。

使用 API 函数或操作系统命令来访问数据

您可以在 Notebook 中使用 API 函数或操作系统命令来访问数据,例如,使用 wget 命令通过 HTTP , HTTPS 或 FTP 协议来访问数据。 使用这些类型的 API 函数和命令时,必须包含用于设置项目访问令牌的代码。 请参阅手动添加项目访问令牌

有关 API 的参考信息,请参阅数据和人工智能通用核心 API

父主题: Notebook 和脚本

Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more