Puede utilizar el nodo Activo de datos para extraer datos de orígenes de datos remotos que utilizan conexiones o desde el sistema local. En primer lugar, debe crear la conexión.
Nota para las conexiones a una base de datos de Planning Analytics, debe elegir una vista (no un cubo).
También puede extraer datos de un archivo de datos local (se da soporte a.csv, .txt, .json, .xls, .xlsx, .sav y .sas). Solo se importa la primera hoja de las hojas de cálculo. En las propiedades del nodo, en DATOS, seleccione uno o más archivos de datos para cargar. También puede arrastrar y soltar el archivo de datos del sistema de archivos local en el lienzo.
Nota: Puede importar un flujo (.str) a ' watsonx.ai Studio ' que fue creado en SPSS Modeler Subscription o SPSS Modeler cliente. Si la ruta importada contiene uno o más nodos de importación o exportación, se le solicitará que convierta los nodos. Consulte Importación de un flujo de SPSS Modeler.
Establecimiento de opciones de formato de datos
Los distintos países utilizan símbolos diferentes para separar la parte entera de la parte fraccionaria de un número. Por ejemplo, algunos países utilizan una coma (4,5) en lugar de un punto (4.5). Y los países utilizan a veces símbolos diferentes para separar los campos de los datos. Por ejemplo, puede utilizar dos puntos o tabuladores en lugar de comas para separar los campos. Puede especificar cuál de estos símbolos utilizar. Efectúe una doble pulsación en el nodo para abrir sus propiedades y especificar formatos de datos.Figura 1. Opciones de delimitador de campos y de símbolo decimal
Inferir estructura de datos
SPSS Modeler procesa una muestra de los registros de los datos para inferir la estructura de los datos y los tipos de datos. Ajuste el número para Inferir recuento de registros si los primeros 1000 registros no son una buena muestra para el número de registros que tiene. A veces, SPSS Modeler puede realizar inferencias incorrectas sobre la estructura de los datos. Para obtener más información, consulte Resolución de problemas de SPSS Modeler.
Importación de datos de un archivo de SPSS Statistics
Si importa datos de un archivo SPSS Statistics (.sav), están disponibles las opciones siguientes:
Nombres de variables. Seleccione un método para manejar nombres de variables y etiquetas al importar desde un archivo SPSS Statistics .sav. Los metadatos que elija incluir aquí se conservan durante todo el trabajo enSPSS Modeler y se pueden volver a exportar para utilizarlos en IBM SPSS Statistics.
Leer nombres y etiquetas. Seleccione esta opción para leer los nombres de variable y las etiquetas en SPSS Modeler. Esta opción está habilitada de forma predeterminada y los nombres de variable se muestran en el nodo Tipo. Las etiquetas se muestran en gráficos, navegadores de modelos y otros tipos de resultados. De forma predeterminada, la representación de etiquetas en los resultados está desactivada.
Lea las etiquetas como nombres. Seleccione esta opción para leer las etiquetas de variable descriptivas del archivo SPSS Statistics .sav en lugar de los nombres de campo cortos, y utilice estas etiquetas como nombres de variable en SPSS Modeler.
Valores. Seleccione un método de manejo de valores y etiquetas al importar desde un archivo SPSS Statistics .sav. Los metadatos que elija incluir aquí persisten durante todo el trabajo en SPSS Modeler y se pueden exportar de nuevo para utilizarlos en SPSS Statistics.
Leer datos y etiquetas. Seleccione esta opción para leer los valores reales y las etiquetas de valor en SPSS Modeler. Esta opción está habilitada de forma predeterminada y los valores se muestran en el nodo Tipo. Las etiquetas de valor se muestran en el Generador de expresiones, gráficos, navegadores de modelos y otros tipos de resultados.
Leer etiquetas como datos. Seleccione esta opción si desea utilizar las etiquetas de valor del archivo .sav en lugar de los códigos numéricos o simbólicos que se utilizan para representar los valores. Por ejemplo, si selecciona esta opción para datos con un campo de género cuyos valores de 1 y 2 representan hombre y mujer, convierte el campo en una serie e importa male y female como los valores reales.
Es importante tener en cuenta los valores perdidos en los datos de SPSS Statistics antes de seleccionar esta opción. Por ejemplo, si un campo numérico utiliza etiquetas sólo para valores perdidos (0 = No Answer, –99 = Desconocido), al seleccionar la opción Leer etiquetas como datos sólo importa las etiquetas de valor No Answer y Desconocido y convierte el campo en una serie. En estos casos, debe importar los propios valores y establecer los valores perdidos en un nodo Tipo.
Utilice la información de formato de campo para determinar el almacenamiento. Si deselecciona esta opción, los valores de campo formateados en el archivo .sav como enteros (por ejemplo, los campos especificados como Fn.0 en la Vista de variables en IBM SPSS Statistics) se importan utilizando el almacenamiento de enteros. El resto de los valores de campos excepto las cadenas se importan como números reales.
Si selecciona esta opción (valor predeterminado), todos los valores de campo excepto las series se importan como números reales, tanto si se formatean en el archivo .sav como enteros o no.
Indicación de fecha y hora como fecha. De forma predeterminada, todos los valores de indicación de fecha y hora se muestran como fechas. Deseleccione esta opción para alterar temporalmente este comportamiento.
Utilización de SQL para extraer datos
En las propiedades del nodo de importación de activos de datos, en Modalidad, puede seleccionar Consulta SQL si desea utilizar SQL personalizado para importar datos de una base de datos. Utilice una sentencia SELECT de SQL para extraer filas o columnas de datos de una base de datos. El campo Vía de acceso de origen no se aplica si está utilizando la modalidad SQL Query .Figura 2. Consulta SQL personalizada
El ejemplo siguiente extraer determinadas filas de datos de una tabla de base de datos:
select * from GOSALES.ORDER_DETAILS
where UNIT_COST > 40,000 LIMIT 4
Y este ejemplo extrae determinadas columnas de datos de una tabla de base de datos:
select QUANTITY, UNIT_COST, UNIT_PRICE from GOSALES.ORDER_DETAILS
La sintaxis SQL que utilice puede variar en función de la plataforma de base de datos. Por ejemplo, si extrae datos de una base de datos Informix , Informix requiere que los nombres de campo estén entre comillas dobles. Por ejemplo:
select "Age", "Sex" from testuser.canvas_drug
Esta característica de SQL solo debe utilizarse para extraer datos. Tenga cuidado de no manipular los datos de la base de datos.
Las bases de datos siguientes dan soporte actualmente a esta característica personalizada de SQL:
Amazon Redshift
Apache Hive
Apache Impala
Compose for PostgreSQL
Db2 on Cloud
Db2 Warehouse
Google BigQuery
Informix
Microsoft SQL Server
MySQL
Netezza
Oracle
Pivotal Greenplum
Salesforce.com
Snowflake
SAP ASE
SAP IQ
Teradata
¿Fue útil el tema?
0/1000
Focus sentinel
Focus sentinel
Focus sentinel
Focus sentinel
Focus sentinel
Cloud Pak for Data relationship map
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Tasks you'll do
Some tasks have a choice of tools and services.
Tools you'll use
Some tools perform the same tasks but have different features and levels of automation.
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Automate the model lifecycle, including preparing data, training models, and creating deployments.
Work with R notebooks and scripts in an integrated development environment.
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deploy and run your data science and AI solutions in a test or production environment.
Find and share your data and other assets.
Import asset metadata from a connection into a project or a catalog.
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Measure and monitor the quality of your data.
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Create your business vocabulary to enrich assets and rules to protect data.
Track data movement and usage for transparency and determining data accuracy.
Track AI models from request to production.
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Create a virtual table to segment or combine data from one or more tables.
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
Discover, profile, catalog, and share trusted data in your organization.
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
View, access, manipulate, and analyze your data without moving it.
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Where you work with data.
> Projects > View all projects
Where you find and share assets.
> Catalogs > View all catalogs
Where you deploy and run assets that are ready for testing or production.
> Deployments
Where you manage governance artifacts.
> Governance > Categories
Where you virtualize data.
> Data > Data virtualization
Where you consolidate data into a 360 degree view.
Acerca de las cookies de este sitioNuestros sitios web necesitan algunas cookies para funcionar correctamente (necesarias). Además, se pueden utilizar otras cookies con su consentimiento para analizar el uso del sitio, para mejorar la experiencia del usuario y para publicidad.Para obtener más información, consulte sus opciones de. Al visitar nuestro sitio web, acepta que procesemos la información tal y como se describe en ladeclaración de privacidad de IBM.Para facilitar la navegación, sus preferencias de cookies se compartirán entre los dominios web de IBM que se muestran aquí.