您可以通过从本地文件,免费数据集或数据源连接访问数据,将数据集成到 Notebook 中。 您可以将数据加载到笔记本中的数据结构或容器中,例如pandas.DataFrame, numpy.array、Spark RDD 或 SparkDataFrame。
要在 Notebook 中处理数据,可以在以下选项之间进行选择:
选项 | 建议的方法 | 要求 | 详细信息 |
---|---|---|---|
在本地系统上添加文件中的数据 | 添加用于装入数据的 代码片段 | 该文件必须作为项目中的资产存在 | 从本地系统添加文件 ,然后 使用代码片段来装入数据 |
从资源中心添加来自免费数据集的数据 | 添加用于装入数据的 代码片段 | 数据集 (文件) 必须作为资产存在于项目中 | 从资源中心添加免费数据集 ,然后 使用代码片段来装入数据 |
从数据源连接装入数据 | 添加用于装入数据的 代码片段 | 连接必须作为资产存在于项目中 | 向项目添加连接 ,然后 添加用于从数据源连接装入数据的代码片段 |
以编程方式访问项目资产和元数据 | 使用 ibm-watson-studio-lib |
数据资产必须存在于项目中 | 使用 ibm-watson-studio-lib 库与数据资产进行交互 |
创建和使用功能部件存储数据 | 使用 assetframe-lib 库函数 |
数据资产必须存在于项目中 | 使用 Python 的 assetframe-lib 库来创建和使用功能部件存储数据 |
使用 API 函数或操作系统命令访问数据 | 例如,使用 wget |
不适用 | 使用 API 函数或操作系统命令访问数据 |
从本地系统添加文件
要使用 Jupyterlab 笔记本编辑器将文件从本地系统添加到项目:
- 以编辑方式打开 Notebook。
- 从工具栏中,单击 将资产上载到项目 图标 ,然后添加文件。
从资源中心装入数据集
资源中心上的数据集包含开放数据。 观看此简短视频,以了解如何使用资源中心中的公共数据集。
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频脚本 时间 脚本 00:00 此视频显示了如何访问 Cloud Pak for Data as a Service 库中的公共数据集。 00:06 从 Resource Hub 开始,使用过滤器仅查看数据集。 00:13 在这里,您将找到一些丰富的数据集,供您在分析中使用。 00:17 例如,您可以搜索 "经济" 或 "人口" 或 "天气" 或 "工作"。 00:28 这看起来像是一个有趣的数据集。 00:30 打开它并预览数据。 00:34 从这里,您可以在社交媒体上共享数据集,获取数据集的直接链接,或者下载数据集。 00:45 您还可以将数据集复制到特定项目中。 00:52 现在,浏览到该项目。 00:55 在 "资产" 选项卡上,您将看到数据集已添加到数据资产部分。 01:01 接下来,添加新的 Notebook。 01:05 此笔记本的标题将为 "失业率"。 01:09 选择运行时环境和语言。 01:14 准备就绪后,创建 Notebook。 01:20 装入 Notebook 时,请访问数据源并查找失业文件。 01:27 单击 "插入到代码中" ,然后选择要插入数据的方式。 01:33 此下拉框中的选项取决于此笔记本中使用的语言。 01:38 请注意,插入的代码包含从 Object Storage 实例读取数据文件所需的凭证。 01:45 运行代码时,将显示前五行。 01:50 现在,您已准备好开始分析 Resource Hub 中的任何丰富数据集。 01:56 在 Cloud Pak for Data as a Service 文档中查找更多视频。
要将数据集从资源中心添加到项目,请执行以下操作:
从导航菜单中选择资源中心。
找到要添加的数据集的卡片
单击 添加到项目,选择项目,然后单击 添加。 单击查看项目将转至“项目概述”页面。 数据资产将添加到项目的 "资产" 页面上的数据资产列表中。
从文件装入数据
先决条件 该文件必须作为资产存在于项目中。 有关详细信息,请参阅 从本地系统添加文件 或 从资源中心装入数据集。
要将数据从项目文件装入到 Notebook ,请执行以下操作:
- 以编辑方式打开 Notebook。
- 单击代码片段图标,单击阅读数据,然后从项目中选择数据文件。 如果要更改选择,请使用 编辑 图标。
- 从 装入方式 下拉列表中,选择您首选的装入选项。 如果选择 凭证,那么将仅生成文件访问凭证。 有关详细信息,请参阅 添加凭证。
- 单击 Notebook 中的空代码单元格,然后单击 将代码插入单元格 以插入生成的代码。 或者,单击以将生成的代码复制到剪贴板,然后将代码粘贴到 Notebook 中。
生成的代码充当开始使用数据集的快速入门。 对于生产系统,请仔细查看插入的代码,以确定是否编写自己的代码以更好地满足您的需求。
要了解为哪些 Notebook 语言和数据格式生成了哪些数据结构,请参阅 数据装入支持。
从数据源连接装入数据
先决条件 您必须先创建或添加与项目的连接,然后才能从 IBM 数据服务或外部数据源装入数据。 请参阅添加项目连接。
要将来自现有数据源连接的数据装入到 Notebook 中的数据结构中,请完成下列步骤:
- 以编辑方式打开 Notebook。
- 单击代码片段图标,单击读取数据,然后从项目中选择数据源连接。
- 选择模式,然后选择表。 如果要更改选择,请使用 编辑 图标。
- 选择装入选项。 如果选择 凭证,那么将仅生成元数据。 有关详细信息,请参阅 添加凭证。
- 单击 Notebook 中的空代码单元格,然后将代码插入到该单元格中。 或者,单击以将生成的代码复制到剪贴板,然后将代码粘贴到 Notebook 中。
- 如有必要,请为标有密钥图标 的锁定数据连接输入个人凭证。 这是一次性步骤,用于为您永久解锁该连接。 解锁该连接后,将不再显示此密钥图标。 有关更多信息,请参阅 向项目添加连接。
生成的代码用于快速开始使用连接。 对于生产系统,请仔细查看插入的代码,以确定是否编写自己的代码以更好地满足您的需求。
有关各连接属性的信息,请访问https://dataplatform.cloud.ibm.com/connections/docs
要了解为哪些 Notebook 语言和数据格式生成了哪些数据结构,请参阅 数据装入支持。
添加凭证
您可以生成自己的代码,以访问位于IBM Cloud Object Storage中的文件或通过连接访问的文件。 例如,当片段生成工具不支持您的文件格式时,这很有用。 通过凭证,您可以编写自己的代码以将数据装入到 Notebook 单元中的数据结构中。
要添加凭证:
- 点击代码片段图标 ",然后点击读取数据。
- 单击 Notebook 中的空代码单元格,选择 凭证 作为装入选项,然后将凭证装入到单元格。 您还可以单击以将凭证复制到剪贴板,然后将其粘贴到 Notebook 中。
- 将凭证插入 Notebook 中的代码以访问数据。 例如,请参阅 Python 的博客中的此代码。
使用 API 函数或操作系统命令来访问数据
您可以在 Notebook 中使用 API 函数或操作系统命令来访问数据,例如,使用 wget
命令通过 HTTP , HTTPS 或 FTP 协议来访问数据。 使用这些类型的 API 函数和命令时,必须包含用于设置项目访问令牌的代码。 请参阅手动添加项目访问令牌。
有关 API 的参考信息,请参阅数据和人工智能通用核心 API。
父主题: Notebook 和脚本