In diesem Lernprogramm finden Sie ein Beispiel dafür, wann Sie die Länge der Eingabedatenkette reduzieren müssen. Bei Modellen vom Typ "Binomiale logistische Regression" und Modellen vom Typ "Automatisches Klassifikationsmerkmal", die ein Modell vom Typ "Binomiale logistische Regression" enthalten, sind die Zeichenfolgefelder auf maximal acht Zeichen begrenzt. Bei Zeichenketten mit mehr als acht Zeichen können Sie sie mit einem Reclassify-Knoten neu kodieren.
Dieses Beispiel konzentriert sich auf einen kleinen Teil eines Ablaufs, um die Art von Fehlern zu zeigen, die bei überlangen Zeichenketten auftreten können, und erklärt, wie man den Knoten Reclassify verwendet, um die Zeichenkettendetails auf eine akzeptable Länge zu ändern. Obwohl das Beispiel einen binomialen logistischen Regressionsknoten verwendet, können Sie auch den Auto Classifier-Knoten verwenden, um ein binomiales logistisches Regressionsmodell zu erstellen.
Vorschau des Lernprogramms anzeigen
Sehen Sie sich dieses Video an, um eine Vorschau der Schritte in diesem Lernprogramm anzuzeigen. Die Benutzeroberfläche, die im Video gezeigt wird, kann geringfügig abweichen. Das Video ist als Ergänzung zum schriftlichen Tutorial gedacht. Dieses Video bietet eine visuelle Methode, um die Konzepte und Aufgaben in dieser Dokumentation zu erlernen.
Versuchen Sie das Tutorial
In diesem Lernprogramm werden Sie die folgenden Tasks ausführen:
In diesem Lernprogramm wird der Ablauf Eingangsdaten Stringlänge reduzieren im Beispielprojekt verwendet. Die verwendete Datendatei ist drug_long_name.csv. Das folgende Bild zeigt ein Beispiel für den Ablauf der Modellierung.
Abb. 1. Ablauf der Modellierung von Proben
Das folgende Bild zeigt den Beispieldatensatz.Abbildung 2: Beispielhafter Datensatz
Aufgabe 1: Öffnen Sie das Beispielprojekt
Das Beispielprojekt enthält mehrere Datensätze und Modellierungsabläufe. Wenn Sie das Beispielprojekt noch nicht haben, finden Sie unter Tutorials eine Anleitung zum Erstellen des Beispielprojekts. Gehen Sie dann wie folgt vor, um das Beispielprojekt zu öffnen:
In Cloud Pak for Data wählen Sie im NavigationsmenüProjekte > Alle Projekte anzeigen aus.
Klicken Sie auf SPSS Modeler Project.
Klicken Sie auf die Registerkarte Assets, um die Datensätze und Modellierungsabläufe zu sehen.
Überprüfen Sie Ihren Fortschritt
Die folgende Abbildung zeigt die Registerkarte Assets des Projekts. Sie sind nun bereit, mit dem zu diesem Lehrgang gehörenden Beispielmodellierungsablauf zu arbeiten.
Aufgabe 2: Untersuchen Sie den Knoten Datenbestand und Typ
Die Verringerung der Länge der Eingabedatenzeichenfolge umfasst mehrere Knotenpunkte. Gehen Sie folgendermaßen vor, um den Knoten Daten-Asset und -Typ zu untersuchen:
Öffnen Sie auf der Registerkarte Assets den Modellierungsablauf Eingabedaten Stringlänge reduzieren und warten Sie, bis der Canvas geladen ist.
Doppelklicken Sie auf den Knoten drug_long_name.csv. Dieser Knoten ist ein Data Asset-Knoten, der auf die Datei drug_long_name.csv im Projekt verweist.
Überprüfen Sie die Eigenschaften des Dateiformats.
Optional: Klicken Sie auf Datenvorschau, um den vollständigen Datensatz zu sehen.
Doppelklicken Sie auf den Knoten Typ hinter dem Knoten Daten-Asset. Dieser Knoten gibt Feldeigenschaften an, wie z. B. die Messebene (die Art der Daten, die das Feld enthält) und die Rolle jedes Feldes als Ziel oder Eingabe bei der Modellierung. Das Messniveau ist eine Kategorie, die den Datentyp für das Feld anzeigt. Die Quelldatendatei verwendet drei verschiedene Messebenen:
Ein kontinuierliches Feld (wie das Feld " Age ) enthält kontinuierliche numerische Werte.
Ein Nominalfeld (wie das Feld " Drug ) hat zwei oder mehr unterschiedliche Werte, in diesem Fall " drugA oder " drugB.
Ein Flag-Feld (wie das Feld " Sex ) beschreibt Daten mit mehreren unterschiedlichen Werten, die eine inhärente Reihenfolge haben; in diesem Fall " F und " M.
Abb. 3 Eigenschaften des Knotens "type"
Für jedes Feld gibt der Knoten Typ auch eine Rolle an, die angibt, welche Rolle das jeweilige Feld bei der Modellierung spielt. Für das Feld " Cholesterol_long, das angibt, ob ein Kunde einen normalen oder hohen Cholesterinspiegel hat, ist die Rolle auf "Ziel" gesetzt. Das Ziel ist das Feld, für das Sie den Wert vorhersagen möchten.
Für die anderen Felder ist die Rolle auf Eingabe eingestellt. Eingabefelder werden manchmal auch als predictors bezeichnet oder als Felder, mit deren Werten der Modellierungsalgorithmus den Wert des Zielfelds vorhersagt.
Optional: Klicken Sie auf Datenvorschau, um den gefilterten Datensatz zu sehen.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Typ. Sie können nun den Knoten Logistik anzeigen.
In dieser Aufgabe führen Sie das Modell aus und entdecken einen Fehler. Führen Sie die folgenden Schritte aus, um die Werte neu zu klassifizieren und den Fehler zu vermeiden:
Ziehen Sie aus dem Abschnitt Modellierung in der Palette den Knoten Logistik auf die Leinwand und verbinden Sie ihn mit dem vorhandenen Knoten Typ nach dem Knoten Datenbestand.
Doppelklicken Sie auf den Knoten Cholesterol_long, um seine Eigenschaften anzuzeigen.
Wählen Sie das Binomialverfahren (anstelle des standardmäßigen Multinomialverfahrens).
Ein Binomialmodell wird verwendet, wenn das Zielfeld ein Flaggen- oder Nominalfeld mit zwei diskreten Werten ist.
Ein Multinomialmodell wird verwendet, wenn das Zielfeld ein Nominalfeld mit mehr als zwei Werten ist.
Klicken Sie auf Speichern.
Fahren Sie mit der Maus über den Knoten "Cholesterin_lang" und klicken Sie auf das Symbol "Ausführen " . Eine Fehlernachricht warnt Sie, dass die Zeichenfolgewerte für Cholesterol_long zu lang sind. Sie können einen Reclassify-Knoten verwenden, um die Werte umzuwandeln und dieses Problem zu beheben. Der Knoten Neu klassifizieren ist nützlich, um Kategorien zusammenzufassen oder Daten für die Analyse neu zu gruppieren.
Abbildung 4. Benachrichtigungen
Doppelklicken Sie auf den Knoten Cholesterin (Neueinstufung), um seine Eigenschaften anzuzeigen. Beachten Sie, dass das Feld "Reclassify " auf " Cholesterol_long eingestellt ist und der Name des neuen Feldes " Cholesterol lautet.
Klicken Sie auf Werte abrufen und erweitern Sie dann den Abschnitt Automatisch neu klassifizieren. Fügen Sie die " Cholesterol_long zur ursprünglichen Wertespalte hinzu.
In der Spalte "Neuer Wert" geben Sie für den ursprünglichen Wert " Hoher Cholesterinspiegel " High und für den ursprünglichen Wert " Normaler Cholesterinspiegel " Normal ein. Diese Einstellungen kürzen die Werte, um die Fehlermeldung zu vermeiden.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Reclassify. Sie können nun den Knoten Filter überprüfen.
Sie können Feldeigenschaften in einem Typknoten angeben. Gehen Sie wie folgt vor, um das Ziel im Knoten Typ zu definieren:
Doppelklicken Sie auf den Knoten Typ hinter dem Knoten Filter, um dessen Eigenschaften anzuzeigen.
Klicken Sie auf Werte lesen, um die Werte aus Ihrer Datenquelle zu lesen und die Feldmessungsarten festzulegen. Die Rolle teilt den Modellierungsknoten mit, ob es sich bei den Feldern um Input (Prädiktorfelder) oder Target (vorhergesagte Felder) für einen maschinellen Lernprozess handelt. Beide und Keine sind ebenfalls verfügbare Rollen, zusammen mit Partition, die ein Feld angibt, das zur Partitionierung von Datensätzen in separate Stichproben für Training, Test und Validierung verwendet wird. Der Wert Split gibt an, dass für jeden möglichen Wert des Feldes ein eigenes Modell erstellt wird.
Für das Feld Cholesterin setzen Sie die Rolle auf Ziel.
Klicken Sie auf Speichern.
Überprüfen Sie Ihren Fortschritt
Das folgende Bild zeigt den Knoten Typ. Sie sind nun bereit, das Modell zu erstellen.
In diesem Beispiel wurde gezeigt, welche Art von Fehlern bei überlangen Zeichenfolgen auftreten können, und es wurde erläutert, wie der Knoten Reclassify verwendet werden kann, um die Zeichenfolgedetails auf eine akzeptable Länge zu ändern. Obwohl in diesem Beispiel ein binomialer logistischer Regressionsknoten verwendet wird, ist es auch anwendbar, wenn der Auto Classifier-Knoten verwendet wird, um ein binomiales logistisches Regressionsmodell zu erstellen.
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Tasks you'll do
Some tasks have a choice of tools and services.
Tools you'll use
Some tools perform the same tasks but have different features and levels of automation.
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Automate the model lifecycle, including preparing data, training models, and creating deployments.
Work with R notebooks and scripts in an integrated development environment.
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deploy and run your data science and AI solutions in a test or production environment.
Find and share your data and other assets.
Import asset metadata from a connection into a project or a catalog.
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Measure and monitor the quality of your data.
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Create your business vocabulary to enrich assets and rules to protect data.
Track data movement and usage for transparency and determining data accuracy.
Track AI models from request to production.
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Create a virtual table to segment or combine data from one or more tables.
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
Discover, profile, catalog, and share trusted data in your organization.
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
View, access, manipulate, and analyze your data without moving it.
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Where you work with data.
> Projects > View all projects
Where you find and share assets.
> Catalogs > View all catalogs
Where you deploy and run assets that are ready for testing or production.
> Deployments
Where you manage governance artifacts.
> Governance > Categories
Where you virtualize data.
> Data > Data virtualization
Where you consolidate data into a 360 degree view.
Über den Einsatz von Cookies auf dieser WebsiteUnsere Websites benötigen einige Cookies, um ordnungsgemäß zu funktionieren (erforderlich). Darüber hinaus können mit Ihrer Zustimmung weitere Cookies verwendet werden, um die Nutzung der Website zu analysieren, die Benutzerfreundlichkeit zu verbessern und Werbung zu schalten.Weitere Informationen finden Sie in Ihren. Durch den Besuch unserer Website erklären Sie sich mit der Verarbeitung von Informationen einverstanden, wie in der IBMDatenschutzbestimmung beschrieben.Um eine reibungslose Navigation zu ermöglichen, werden Ihre Cookie-Präferenzen über die hier aufgeführten IBM Web-Domains hinweg gemeinsam genutzt.