您可以使用 "数据资产" 节点从使用连接的远程数据源或本地计算机中拉入数据。 首先,必须创建连接。
请注意,对于 Planning Analytics 数据库的连接,必须选择视图(而不是多维数据集)。
您还可以从本地数据文件中提取数据(支持 .csv、.txt、.json、.xls、.xlsx、.sav 和 .sas)。 只会从电子表格中导入第一张工作表。 在节点属性中 DATA 下,选择一个或多个要上载的数据文件。 您还可以将数据文件从本地文件系统拖放到画布上。
设置数据格式选项
推断数据结构
SPSS Modeler 处理数据中的记录样本,以推断数据的结构和数据类型。 如果前 1000 条记录不是您拥有的记录数的良好样本,请调整 推断记录计数 的数字。 有时, SPSS Modeler 可能会对数据结构进行不正确的推断。 有关更多信息,请参阅 故障诊断 SPSS Modeler。
从 SPSS Statistics 文件导入数据
如果从 SPSS Statistics 文件 (.sav) 导入数据,可以使用下列选项:
- 读取名称和标签。 选择此项以将变量名称和标签同时读取到 SPSS Modeler中。 缺省情况下,此选项处于启用状态,并且变量名称显示在 "类型" 节点中。 标签显示在图表,模型浏览器和其他类型的输出中。 缺省情况下,禁用在输出中显示标签。
- 读取标签作为名称。 选择从 SPSS Statistics .sav 文件而不是短字段名称中读取描述性变量标签,并在 SPSS Modeler中将这些标签用作变量名称。
- 读取数据和标签。 选择此项以将实际值和值标签同时读取到 SPSS Modeler中。 缺省情况下,将启用此选项,并且值本身将显示在 "类型" 节点中。 值标签显示在 "表达式构建器" ,图表,模型浏览器和其他类型的输出中。
- 读取标签作为数据。 选择是否要使用 .sav 文件中的值标签,而不是用于表示值的数字或符号代码。 例如,对具有性别字段 (其值
1
和2
表示 男性 和 女性) 的数据选择此选项,将该字段转换为字符串,并将male
和female
作为实际值导入。在选择此选项之前,请务必考虑 SPSS Statistics 数据中的缺失值。 例如,如果数字字段仅将标签用于缺失值 (
0
= No Answer,–99
= Unknown) ,那么选择 读取标签作为数据 选项将仅导入值标签 No Answer 和 Unknown ,并将该字段转换为字符串。 在此类情况下,应该导入值本身并在“类型”节点中设置缺失的值。
使用字段格式信息来确定存储。 如果取消选择此选项,那么将使用整数存储导入 .sav 文件中格式化为整数的字段值 (例如,在 IBM SPSS Statistics的 "变量视图" 中指定为 Fn.0 的字段)。 除字符串外,所有其他字段值均以实数形式导入。
如果选择此选项(缺省),除了字符串之外的所有字段值均将以实数形式导入,而无论 .sav 文件中是否将其格式化为整数。
将时间戳记读取为日期。 缺省情况下,所有时间戳记值均显示为日期。 取消选择此选项将覆盖该行为。
使用 SQL 来提取数据
SELECT
语句从数据库中拉入数据的行或列。 如果使用 SQL Query 方式,那么 源路径 字段不适用。
select * from GOSALES.ORDER_DETAILS
where UNIT_COST > 40,000 LIMIT 4
select QUANTITY, UNIT_COST, UNIT_PRICE from GOSALES.ORDER_DETAILS
select "Age", "Sex" from testuser.canvas_drug
此 SQL 功能只能用于提取数据。 请谨慎使用,避免处理数据库中的数据。
- Amazon Redshift
- Apache Hive
- Apache Impala
- Compose for PostgreSQL
- Db2 on Cloud
- Db2 Warehouse
- Google BigQuery
- Informix
- Microsoft SQL Server
- MySQL
- Netezza
- Oracle
- Pivotal Greenplum
- Salesforce.com
- Snowflake
- SAP ASE
- SAP IQ
- Teradata