0 / 0
Go back to the English version of the documentation
“数据资产”节点
Last updated: 2024年11月22日
"数据资产" 节点 (SPSS Modeler)

您可以使用 "数据资产" 节点从使用连接的远程数据源或本地计算机中拉入数据。 首先,必须创建连接。

请注意,对于 Planning Analytics 数据库的连接,必须选择视图(而不是多维数据集)。

您还可以从本地数据文件中提取数据(支持 .csv.txt.json.xls.xlsx.sav.sas)。 只会从电子表格中导入第一张工作表。 在节点属性中 DATA 下,选择一个或多个要上载的数据文件。 您还可以将数据文件从本地文件系统拖放到画布上。

注意:您可以将一个流(.str)导入到在SPSS Modeler SubscriptionSPSS Modeler客户端中创建的 "watsonx.ai Studio中。 如果导入的流包含一个或多个导入或导出节点,那么将提示您转换这些节点。 请参阅导入SPSS Modeler数据流

设置数据格式选项

不同国家使用不同的符号来区分数字的整数部分和小数部分。 例如,有些国家使用逗号(4,5)而不是句号(4.5)。 各国有时会使用不同的符号来分隔数据字段。 例如,您可以使用冒号或制表符而不是逗号来分隔字段。 您可以指定使用这些符号中的哪一个。 双击节点以打开其属性并指定数据格式。
图 1。 字段分隔符和小数符号选项
字段分隔符和小数符号选项

推断数据结构

SPSS Modeler 处理数据中的记录样本,以推断数据的结构和数据类型。 如果前 1000 条记录不是您拥有的记录数的良好样本,请调整 推断记录计数 的数字。 有时, SPSS Modeler 可能会对数据结构进行不正确的推断。 有关更多信息,请参阅 故障诊断 SPSS Modeler

从 SPSS Statistics 文件导入数据

如果从 SPSS Statistics 文件 (.sav) 导入数据,可以使用下列选项:

变量名称。 选择从 SPSS Statistics .sav 文件导入时处理变量名和标签的方法。 您选择在此处包含的元数据将在SPSS Modeler 中的整个工作中持久存储,并且可以再次导出以在 IBM SPSS Statistics中使用。
  • 读取名称和标签。 选择此项以将变量名称和标签同时读取到 SPSS Modeler中。 缺省情况下,此选项处于启用状态,并且变量名称显示在 "类型" 节点中。 标签显示在图表,模型浏览器和其他类型的输出中。 缺省情况下,禁用在输出中显示标签。
  • 读取标签作为名称。 选择从 SPSS Statistics .sav 文件而不是短字段名称中读取描述性变量标签,并在 SPSS Modeler中将这些标签用作变量名称。
值。 选择从 SPSS Statistics .sav 文件导入时处理值和标签的方法。 您选择在此处包含的元数据将在 SPSS Modeler 中的整个工作中持久存储,并且可以再次导出以在 SPSS Statistics中使用。
  • 读取数据和标签。 选择此项以将实际值和值标签同时读取到 SPSS Modeler中。 缺省情况下,将启用此选项,并且值本身将显示在 "类型" 节点中。 值标签显示在 "表达式构建器" ,图表,模型浏览器和其他类型的输出中。
  • 读取标签作为数据。 选择是否要使用 .sav 文件中的值标签,而不是用于表示值的数字或符号代码。 例如,对具有性别字段 (其值 12 表示 男性女性) 的数据选择此选项,将该字段转换为字符串,并将 malefemale 作为实际值导入。

    在选择此选项之前,请务必考虑 SPSS Statistics 数据中的缺失值。 例如,如果数字字段仅将标签用于缺失值 (0 = No Answer–99 = Unknown) ,那么选择 读取标签作为数据 选项将仅导入值标签 No AnswerUnknown ,并将该字段转换为字符串。 在此类情况下,应该导入值本身并在“类型”节点中设置缺失的值。

使用字段格式信息来确定存储。 如果取消选择此选项,那么将使用整数存储导入 .sav 文件中格式化为整数的字段值 (例如,在 IBM SPSS Statistics的 "变量视图" 中指定为 Fn.0 的字段)。 除字符串外,所有其他字段值均以实数形式导入。

如果选择此选项(缺省),除了字符串之外的所有字段值均将以实数形式导入,而无论 .sav 文件中是否将其格式化为整数。

将时间戳记读取为日期。 缺省情况下,所有时间戳记值均显示为日期。 取消选择此选项将覆盖该行为。

使用 SQL 来提取数据

在“数据资产”导入节点属性中的方式下,如果要使用定制 SQL 从数据库导入数据,可选择 SQL 查询。 使用 SQL SELECT 语句从数据库中拉入数据的行或列。 如果使用 SQL Query 方式,那么 源路径 字段不适用。
图 2。 定制 SQL 查询
定制 SQL 查询
以下示例从数据库表中提取某些数据行:
select * from GOSALES.ORDER_DETAILS
where  UNIT_COST > 40,000 LIMIT 4
以下示例从数据库表中提取某些数据列:
select QUANTITY, UNIT_COST, UNIT_PRICE from GOSALES.ORDER_DETAILS
您使用的 SQL 语法可能因数据库平台而异。 例如,如果从 Informix 数据库中拉入数据,那么 Informix 要求字段名称括在双引号内。 例如:
select "Age", "Sex" from testuser.canvas_drug

此 SQL 功能只能用于提取数据。 请谨慎使用,避免处理数据库中的数据。

以下数据库当前支持此定制 SQL 功能:
  • Amazon Redshift
  • Apache Hive
  • Apache Impala
  • Compose for PostgreSQL
  • Db2 on Cloud
  • Db2 Warehouse
  • Google BigQuery
  • Informix
  • Microsoft SQL Server
  • MySQL
  • Netezza
  • Oracle
  • Pivotal Greenplum
  • Salesforce.com
  • Snowflake
  • SAP ASE
  • SAP IQ
  • Teradata
Generative AI search and answer
These answers are generated by a large language model in watsonx.ai based on content from the product documentation. Learn more