Go back to the English version of the documentation将数据添加到项目
将数据添加到项目
Last updated: 2024年6月21日
创建项目后,下一步是向其添加数据资产,以便您可以使用数据。 项目中的所有合作者都自动有权访问项目中的数据。
不同的资产类型可能具有重复的名称。 但是,不能多次添加同名的资产类型。
您可以使用以下方法将数据资产添加到项目:
方法 | 使用时间 |
---|---|
添加本地文件 | 您在本地系统上具有 CSV 或类似文件中的数据。 |
添加资源中心数据集 | 您要使用样本数据集。 |
添加数据库连接 | 您需要连接到远程数据源。 |
通过连接添加数据 | 您需要一个或多个来自远程数据源的表或文件。 |
添加动态视图 | 您需要一个包含远程数据源中的一个或多个表中的数据子集的视图。 |
从连接导入元数据 | 您需要来自远程数据源的许多表或文件。 您希望调度并重新运行导入过程。 |
从 IBM Cloud Object Storage | 您需要 IBM Cloud Object Storage 中包含动态文件集 (例如新闻订阅源) 的文件夹。 |
添加目录资产 | 您需要目录中的一个或多个资产。 |
将项目存储器中的文件转换为资产 | 您希望将在项目中创建的文件转换为数据资产。 |
添加本地文件
您可以将本地系统中的文件添加为项目中的数据资产。
- 所需许可权
您必须在项目中具有编辑者或管理员角色。
- 限制
- 文件不能为空。
- 文件名不能超过 255 个字符。
- 可以使用 UI 装入的文件的最大大小为 5 GB。 您可以使用 API 将更大的文件加载到项目。
重要信息: 无法向项目添加可执行文件。 不会检查您添加到项目中的所有其他类型的文件是否存在恶意代码。 您必须确保您的文件不含可供其他合作者下载的任何类型恶意软件。
要将数据文件添加到项目中,请执行以下操作:
在项目的 " 资产 " 页面中,单击 将资产上载到项目 图标 。 您还可以从笔记本或画布中单击同一图标 。
在打开的窗格中,浏览文件或将其拖到窗格上。 您必须停留在该页面上,直至装入完成为止。
这些文件将保存在与项目关联的对象存储器中,并在项目的资产页面上列示为数据资产。
单击数据资产名称时,可以从文件查看有关数据资产的以下信息:
- 资产名称和描述
- 资产的标记
- 创建资产的人员的名称
- 数据的大小
- 资产添加到项目的日期
- 上次修改资产的日期
- 数据的预览,适用于 CSV、Avro、Parquet、TSV、Microsoft Excel、PDF、文本、JSON 和图像文件
- 数据的 概要文件 ,用于 CSV , Avro , Parquet , TSV 和 Microsoft Excel 文件
您可以通过向项目添加具有相同名称和格式的文件,然后选择替换现有数据资产来更新文件中数据资产的内容。
您可以通过从资产名称旁边的操作菜单中选择 删除 选项来除去数据资产。 选择 准备数据 选项以使用 Data Refinery优化数据。
添加资源中心数据集
您可以将数据集从资源中心添加到项目:
- 在资源中心中,查找要添加的数据集的卡。
- 单击操作栏中的添加到项目图标,选择项目,然后单击添加。
观看此短视频以了解如何加载和分析公共数据集。
此视频提供了一种可视方法来学习本文档中的概念和任务。
视频脚本 时间 脚本 00:00 此视频显示了如何访问 Cloud Pak for Data as a Service 库中的公共数据集。 00:06 从 Resource Hub 开始,使用过滤器仅查看数据集。 00:13 在这里,您将找到一些丰富的数据集,供您在分析中使用。 00:17 例如,您可以搜索 "经济" 或 "人口" 或 "天气" 或 "工作"。 00:28 这看起来像是一个有趣的数据集。 00:30 打开它并预览数据。 00:34 从这里,您可以在社交媒体上共享数据集,获取数据集的直接链接,或者下载数据集。 00:45 您还可以将数据集复制到特定项目中。 00:52 现在,浏览到该项目。 00:55 在 "资产" 选项卡上,您将看到数据集已添加到数据资产部分。 01:01 接下来,添加新的 Notebook。 01:05 此笔记本的标题将为 "失业率"。 01:09 选择运行时环境和语言。 01:14 准备就绪后,创建 Notebook。 01:20 装入 Notebook 时,请访问数据源并查找失业文件。 01:27 单击 "插入到代码中" ,然后选择要插入数据的方式。 01:33 此下拉框中的选项取决于此笔记本中使用的语言。 01:38 请注意,插入的代码包含从 Object Storage 实例读取数据文件所需的凭证。 01:45 运行代码时,将显示前五行。 01:50 现在,您已准备好开始分析 Resource Hub 中的任何丰富数据集。 01:56 在 Cloud Pak for Data as a Service 文档中查找更多视频。
将项目存储器中的文件转换为资产
项目的存储器包含您上载到项目的数据资产,但它还可以包含其他文件。 例如,您可以将 DataFrame 保存在项目环境存储器的 Notebook 中。 您可以将项目存储器中的文件转换为资产。
要将项目存储器中的文件转换为资产:
- 从项目的 资产 选项卡中,单击 导入资产。
- 选择 项目文件。
- 选择 data_asset 文件夹。
- 选择资产,然后单击 导入。
后续步骤
了解更多信息
父主题: 准备数据