在 Notebook 中装入和访问数据 | IBM Cloud Pak for Data as a Service

Go back to the English version of the documentation

在 Notebook 中装入和访问数据

Last updated: 2024年11月28日

在 Notebook 中装入和访问数据

您可以通过从本地文件，免费数据集或数据源连接访问数据，将数据集成到 Notebook 中。您可以将数据加载到笔记本中的数据结构或容器中，例如pandas.DataFrame, numpy.array、Spark RDD 或 SparkDataFrame。

要在 Notebook 中处理数据，可以在以下选项之间进行选择:

向 Notebook 添加数据的建议方法
选项	建议的方法	要求	详细信息
在本地系统上添加文件中的数据	添加用于装入数据的代码片段	该文件必须作为项目中的资产存在	从本地系统添加文件，然后使用代码片段来装入数据
从资源中心添加来自免费数据集的数据	添加用于装入数据的代码片段	数据集 (文件) 必须作为资产存在于项目中	从资源中心添加免费数据集，然后使用代码片段来装入数据
从数据源连接装入数据	添加用于装入数据的代码片段	连接必须作为资产存在于项目中	向项目添加连接，然后添加用于从数据源连接装入数据的代码片段
以编程方式访问项目资产和元数据	使用 `ibm-watson-studio-lib`	数据资产必须存在于项目中	使用 `ibm-watson-studio-lib` 库与数据资产进行交互
创建和使用功能部件存储数据	使用 `assetframe-lib` 库函数	数据资产必须存在于项目中	使用 Python 的 `assetframe-lib` 库来创建和使用功能部件存储数据
使用 API 函数或操作系统命令访问数据	例如，使用 `wget`	不适用	使用 API 函数或操作系统命令访问数据

重要信息: 请确保启动 Notebook 的环境中有足够的内存来存储装入到 Notebook 的数据。环境中的内存必须比装入到 Notebook 中的数据的总大小大得多。某些数据框架 (如 pandas) 可以将数据的多个副本保存在内存中。

从本地系统添加文件

要使用 Jupyterlab 笔记本编辑器将文件从本地系统添加到项目:

以编辑方式打开 Notebook。
从工具栏中，单击 将资产上载到项目 图标，然后添加文件。

提示: 您还可以将文件拖到 Notebook 侧边栏中。

从资源中心装入数据集

资源中心上的数据集包含开放数据。观看此简短视频，以了解如何使用资源中心中的公共数据集。

此视频提供了一种可视方法来学习本文档中的概念和任务。

脚本

将文字记录与视频同步

视频脚本
时间	脚本
00:00	此视频显示了如何访问 Cloud Pak for Data as a Service 库中的公共数据集。
00:06	从 Resource Hub 开始，使用过滤器仅查看数据集。
00:13	在这里，您将找到一些丰富的数据集，供您在分析中使用。
00:17	例如，您可以搜索 "经济" 或 "人口" 或 "天气" 或 "工作"。
00:28	这看起来像是一个有趣的数据集。
00:30	打开它并预览数据。
00:34	从这里，您可以在社交媒体上共享数据集，获取数据集的直接链接，或者下载数据集。
00:45	您还可以将数据集复制到特定项目中。
00:52	现在，浏览到该项目。
00:55	在 "资产" 选项卡上，您将看到数据集已添加到数据资产部分。
01:01	接下来，添加新的 Notebook。
01:05	此笔记本的标题将为 "失业率"。
01:09	选择运行时环境和语言。
01:14	准备就绪后，创建 Notebook。
01:20	装入 Notebook 时，请访问数据源并查找失业文件。
01:27	单击 "插入到代码中" ，然后选择要插入数据的方式。
01:33	此下拉框中的选项取决于此笔记本中使用的语言。
01:38	请注意，插入的代码包含从 Object Storage 实例读取数据文件所需的凭证。
01:45	运行代码时，将显示前五行。
01:50	现在，您已准备好开始分析 Resource Hub 中的任何丰富数据集。
01:56	在 Cloud Pak for Data as a Service 文档中查找更多视频。

要将数据集从资源中心添加到项目，请执行以下操作:

从导航菜单中选择资源中心。
找到要添加的数据集的卡片
单击 添加到项目，选择项目，然后单击添加。单击查看项目将转至“项目概述”页面。数据资产将添加到项目的 "资产" 页面上的数据资产列表中。

从文件装入数据

先决条件 该文件必须作为资产存在于项目中。有关详细信息，请参阅从本地系统添加文件或从资源中心装入数据集。

要将数据从项目文件装入到 Notebook ，请执行以下操作:

以编辑方式打开 Notebook。
单击代码片段图标，单击阅读数据，然后从项目中选择数据文件。如果要更改选择，请使用编辑图标。
从 装入方式 下拉列表中，选择您首选的装入选项。如果选择凭证，那么将仅生成文件访问凭证。有关详细信息，请参阅添加凭证。
单击 Notebook 中的空代码单元格，然后单击 将代码插入单元格 以插入生成的代码。或者，单击以将生成的代码复制到剪贴板，然后将代码粘贴到 Notebook 中。

生成的代码充当开始使用数据集的快速入门。对于生产系统，请仔细查看插入的代码，以确定是否编写自己的代码以更好地满足您的需求。

要了解为哪些 Notebook 语言和数据格式生成了哪些数据结构，请参阅数据装入支持。

从数据源连接装入数据

先决条件 您必须先创建或添加与项目的连接，然后才能从 IBM 数据服务或外部数据源装入数据。请参阅添加项目连接。

要将来自现有数据源连接的数据装入到 Notebook 中的数据结构中，请完成下列步骤：

以编辑方式打开 Notebook。
单击代码片段图标，单击读取数据，然后从项目中选择数据源连接。
选择模式，然后选择表。如果要更改选择，请使用编辑图标。
选择装入选项。如果选择凭证，那么将仅生成元数据。有关详细信息，请参阅添加凭证。
单击 Notebook 中的空代码单元格，然后将代码插入到该单元格中。或者，单击以将生成的代码复制到剪贴板，然后将代码粘贴到 Notebook 中。
如有必要，请为标有密钥图标的锁定数据连接输入个人凭证。这是一次性步骤，用于为您永久解锁该连接。解锁该连接后，将不再显示此密钥图标。有关更多信息，请参阅向项目添加连接。

生成的代码用于快速开始使用连接。对于生产系统，请仔细查看插入的代码，以确定是否编写自己的代码以更好地满足您的需求。

有关各连接属性的信息，请访问https://dataplatform.cloud.ibm.com/connections/docs

要了解为哪些 Notebook 语言和数据格式生成了哪些数据结构，请参阅数据装入支持。

添加凭证

您可以生成自己的代码，以访问位于IBM Cloud Object Storage中的文件或通过连接访问的文件。例如，当片段生成工具不支持您的文件格式时，这很有用。通过凭证，您可以编写自己的代码以将数据装入到 Notebook 单元中的数据结构中。

要添加凭证:

点击代码片段图标 "，然后点击读取数据。
单击 Notebook 中的空代码单元格，选择凭证作为装入选项，然后将凭证装入到单元格。您还可以单击以将凭证复制到剪贴板，然后将其粘贴到 Notebook 中。
将凭证插入 Notebook 中的代码以访问数据。例如，请参阅 Python 的博客中的此代码。

使用 API 函数或操作系统命令来访问数据

您可以在 Notebook 中使用 API 函数或操作系统命令来访问数据，例如，使用 wget 命令通过 HTTP ， HTTPS 或 FTP 协议来访问数据。使用这些类型的 API 函数和命令时，必须包含用于设置项目访问令牌的代码。请参阅手动添加项目访问令牌。

有关 API 的参考信息，请参阅数据和人工智能通用核心 API。

父主题: Notebook 和脚本