Data Science und MLOps-Anwendungsfall

Letzte Aktualisierung: 05. März 2025

Für die Operationalisierung der Datenanalyse und Modellerstellung benötigt Ihr Unternehmen integrierte Systeme und Prozesse. Cloud Pak for Data as a Service bietet die Prozesse und Technologien, mit denen Ihr Unternehmen Modelle für maschinelles Lernen und andere Data-Science-Anwendungen entwickeln und bereitstellen kann.

In diesem Video wird der Anwendungsfall für die Implementierung einer Data-Science-und MLOps-Lösung gezeigt.

Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.

Challenges (Abfragen)

Sie können die folgenden Herausforderungen für Ihr Unternehmen lösen, indem Sie einen Anwendungsfall für Data Science und MLOps implementieren:

Auf hochwertige Daten zugreifen: Unternehmen müssen einfachen Zugriff auf hochwertige, regulierte Daten für Data-Science-Teams bereitstellen, die die Daten zum Erstellen von Modellen verwenden.
Modellerstellung und -implementierung operationalisieren: Unternehmen müssen wiederholt anwendbare Prozesse implementieren, um Modelle schnell und effizient in Produktionsumgebungen zu erstellen und bereitzustellen.
Modelle überwachen und erneut trainieren: Unternehmen müssen die Überwachung und das erneute Training von Modellen basierend auf Produktionsfeedback automatisieren.

Beispiel: Herausforderungen der Goldenen Bank

Folgen Sie der Geschichte der Golden Bank, während sie einen Data-Science-und MLOps-Prozess implementiert, um ihr Geschäft zu erweitern, indem sie kostengünstige Hypothekenverlängerungen für Online-Anwendungen anbieten. Data-Scientists der Golden Bank müssen ein Hypothekengenehmigungsmodell erstellen, das Risiken vermeidet und alle Antragsteller fair behandelt. Außerdem müssen sie das erneute Modelltraining automatisieren, um die Modellleistung zu optimieren.

Prozess

Um Data Science und MLOps für Ihr Unternehmen zu implementieren, kann Ihr Unternehmen diesen Prozess befolgen:

Daten vorbereiten und gemeinsam nutzen
Modelle erstellen und trainieren
Modelle bereitstellen
Implementierte Monitor-Modelle
Automatisierung des KI-Lebenszyklus

Die Services watsonx.ai Studio, watsonx.ai Runtime, Watson OpenScale und IBM Knowledge Catalog in Cloud Pak for Data as a Service bieten die Tools und Prozesse, die Ihr Unternehmen für die Implementierung einer Data Science- und MLOps-Lösung benötigt.

Abbildung zum Ablauf des Data-Science-Anwendungsfalls

Data-Scientists können ihre eigenen Datasets vorbereiten und in einem Katalog gemeinsam nutzen. Der Katalog dient als Featuregeschäft, in dem Ihre Data-Scientist-Teams hochwertige Datenassets mit den benötigten Features finden können. Sie können Datenassets aus einem Katalog in einem Projekt hinzufügen, wo sie zusammenarbeiten, um die Daten vorzubereiten, zu analysieren und zu modellieren.

Was Sie verwenden können	Aktion	Am besten zu verwenden, wenn
Data Refinery	Greifen Sie auf Daten aus verschiedenen Datenquellenverbindungen zu und optimieren Sie sie. Verwenden Sie die resultierenden Datasets als Momentaufnahmen, die Daten kombinieren, verknüpfen oder filtern können, damit andere Data-Scientists sie analysieren und untersuchen können. Stellen Sie die resultierenden Datasets in Katalogen zur Verfügung.	Sie müssen die Daten visualisieren, wenn Sie sie formen oder bereinigen möchten. Sie möchten den Prozess der Vorbereitung großer Rohdatenmengen für die Analyse vereinfachen.
Kataloge	Verwenden Sie Kataloge in IBM Knowledge Catalog als Funktionsspeicher, um Ihre Assets für die gemeinsame Nutzung durch die Mitarbeiter in Ihrem Unternehmen zu organisieren. ' Nutzen Sie die Vorteile der KI-gestützten semantischen Suche und der Empfehlungen, damit die Benutzer das finden, was sie brauchen.	Ihre Benutzer müssen die hochwertigen Daten leicht verstehen, zusammenarbeiten, aufbereiten und darauf zugreifen können. Sie möchten die Sichtbarkeit von Daten und die Zusammenarbeit zwischen Geschäftsbenutzern verbessern. Sie benötigen Benutzer zum Anzeigen, Zugreifen, Bearbeiten und Analysieren von Daten, ohne ihr physisches Format oder ihre Position zu verstehen und ohne sie verschieben oder kopieren zu müssen. Sie möchten, dass Benutzer Assets durch Bewertung und Prüfung erweitern.

Beispiel: Katalog der Goldenen Bank

Der Leiter des Governance-Teams erstellt den Katalog "Mortgage Approval Catalog" und fügt die Data-Stewards und Data-Scientists als Katalogmitarbeiter hinzu. Die Data-Stewards publizieren die von ihnen erstellten Datenassets im Katalog. Die Data-Scientists suchen die von den Data-Stewards kuratierten Datenassets im Katalog und kopieren diese Assets in ein Projekt. In ihrem Projekt können die Data-Scientists die Daten optimieren, um sie für das Training eines Modells vorzubereiten.

2. Modelle erstellen und trainieren

Um Vorhersageerkenntnisse basierend auf Ihren Daten zu erhalten, können Data-Scientists, Geschäftsanalysten und Entwickler für maschinelles Lernen Modelle erstellen und trainieren. Data-Scientists verwenden Cloud Pak for Data as a Service -Services, um die KI-Modelle zu erstellen und sicherzustellen, dass die richtigen Algorithmen und Optimierungen verwendet werden, um Vorhersagen zu treffen, die bei der Lösung von Geschäftsproblemen helfen.

Was Sie verwenden können	Aktion	Am besten zu verwenden, wenn
AutoAI	Verwenden Sie AutoAI in watsonx.ai Studio, um automatisch Algorithmen auszuwählen, Features zu entwickeln, Pipeline-Kandidaten zu generieren und Modell-Pipeline-Kandidaten zu trainieren. ' Bewerten Sie dann die eingestuften Pipelines und speichern Sie die besten als Modelle. ' Stellen Sie die trainierten Modelle in einem Bereich bereit, oder exportieren Sie die Modell-Trainings-Pipeline, die Ihnen gefällt, aus AutoAI in ein Notebook, um sie zu verfeinern.	Sie wollen eine erweiterte und automatisierte Methode zum schnellen Erstellen einer guten Gruppe von Trainingspipelines und -modellen. Sie möchten in der Lage sein, die generierten Pipelines zu exportieren, um sie zu optimieren.
Notebooks und Scripts	Verwenden Sie Notebooks und Skripte in watsonx.ai Studio, um Ihren eigenen Code für das Training und die Auswertung von Feature-Engineering-Modellen in Python oder R zu schreiben. Verwenden Sie im Projekt verfügbare Trainingsdatasets oder Verbindungen zu Datenquellen wie Datenbanken, Data Lakes oder Objektspeicher. Codieren Sie mit Ihren bevorzugten Open-Source-Frameworks und -Bibliotheken.	Sie möchten Python -oder R-Codierungskenntnisse verwenden, um die vollständige Kontrolle über den Code zu haben, der zum Erstellen, Trainieren und Auswerten der Modelle verwendet wird.
SPSS Modeler-Abläufe	Verwenden Sie SPSS Modeler in watsonx.ai Studio, um Ihre eigenen Modell-Trainings-, Bewertungs- und Scoring-Flows zu erstellen. Verwenden Sie Trainingsdatasets, die im Projekt verfügbar sind, oder Verbindungen zu Datenquellen wie Datenbanken, Data Lakes oder Objektspeicher.	Sie möchten eine einfache Methode zum Untersuchen von Daten und zum Definieren von Trainings-, Bewertungs-und Scoring-Abläufen für Modelle.
RStudio	Analysieren Sie Daten und erstellen und testen Sie Modelle, indem Sie mit R in RStudio arbeiten.	Sie möchten eine Entwicklungsumgebung für die Arbeit in R verwenden.
Decision Optimization	Bereiten Sie Daten vor, importieren Sie Modelle, lösen Sie Probleme und vergleichen Sie Szenarien, visualisieren Sie Daten, finden Sie Lösungen, erstellen Sie Berichte und speichern Sie Modelle, um sie mit watsonx.ai Runtime einzusetzen.	Sie müssen Millionen von Möglichkeiten bewerten, um die beste Lösung für ein präskriptives Analyseproblem zu finden.
Federated Learning	Trainieren Sie ein allgemeines Modell, das verteilte Daten verwendet.	Sie müssen ein Modell trainieren, ohne Daten zu verschieben, zu kombinieren oder gemeinsam zu nutzen, die über mehrere Standorte verteilt sind.

Beispiel: Modellerstellung und -schulung der Golden Bank

Data-Scientists der Golden Bank erstellen ein Modell "Hypothekengenehmigungsmodell", das unvorhergesehene Risiken vermeidet und alle Antragsteller fair behandelt. Sie möchten den Verlauf und die Leistung des Modells von Anfang an verfolgen und dem "Mortgage Approval Catalog" einen Modellanwendungsfall hinzufügen. Sie führen ein Notebook aus, um das Modell zu erstellen und vorherzusagen, welche Antragsteller für Hypotheken qualifiziert sind. Die Details des Modelltrainings werden automatisch als Metadaten im Modellanwendungsfall erfasst.

3. Modelle bereitstellen

Wenn Mitglieder des Betriebsteams Ihre KI-Modelle einsetzen, stehen die Modelle auch für Anwendungen bereit, die sie für Scoring und Vorhersagen nutzen können, um Laufwerkaktionen zu fördern.

Was Sie verwenden können	Aktion	Am besten zu verwenden, wenn
Benutzerschnittstelle für Bereiche	Verwenden Sie die Bereichsbenutzerschnittstelle, um Modelle und andere Assets aus Projekten in Bereichen bereitzustellen.	Sie möchten Modelle bereitstellen und Implementierungsinformationen in einem Arbeitsbereich mit Onlinezusammenarbeit anzeigen.

Beispiel: Modellbereitstellung der Golden Bank

Die Mitglieder des Betriebsteams der Golden Bank fördern das "Hypothekengenehmigungsmodell" aus dem Projekt in einen Bereitstellungsbereich und erstellen anschließend eine Onlinemodellbereitstellung.

4. Implementierte Modelle überwachen

Nachdem Modelle implementiert wurden, ist es wichtig, sie zu überwachen, um sicherzustellen, dass sie gut funktionieren. Data-Scientists müssen auf Probleme mit der Modellleistung und Datenkonsistenz achten.

Was Sie verwenden können	Aktion	Am besten zu verwenden, wenn
Watson OpenScale	Überwachung von Modellfairnessproblemen über mehrere Funktionen hinweg. Überwachung der Modellleistung und Datenkonsistenz im Zeitverlauf. Erläutern Sie, wie das Modell bei bestimmten Vorhersagen mit gewichteten Faktoren angekommen ist. Verwalten und dokumentieren Sie die Modellgovernance und den Lebenszyklus in Ihrem Unternehmen.	Sie verfügen über Merkmale, die geschützt sind oder zur Fairness bei der Vorhersage beitragen können. Sie möchten die Modellleistung und Datenkonsistenzen im Zeitverlauf verfolgen. Sie möchten wissen, warum das Modell bestimmte Vorhersagen liefert.

Beispiel: Modellüberwachung der Goldenen Bank

Data-Scientists von der Goldenen Bank verwenden Watson OpenScale , um das implementierte "Hypothekengenehmigungsmodell" zu überwachen, um sicherzustellen, dass es korrekt ist, und alle Antragsteller von Hypotheken der Goldenen Bank fair zu behandeln. Sie führen ein Notebook aus, um Monitore für das Modell einzurichten, und optimieren dann die Konfiguration mithilfe der Watson OpenScale -Benutzerschnittstelle. Mithilfe von Metriken aus der Qualitätsüberwachung und Fairnessüberwachung von Watson OpenScale bestimmen die Data-Scientists, wie gut das Modell Ergebnisse vorhersagt und ob es verzerrte Ergebnisse erzeugt. Sie erhalten auch Einblicke, wie das Modell zu Entscheidungen kommt, damit die Entscheidungen den Hypothekenantragstellern erklärt werden können.

5. Automatisierung des KI-Lebenszyklus

Ihr Team kann den MLOps-und KI-Lebenszyklus mit Orchestration Pipelines automatisieren und vereinfachen.

Was Sie verwenden können	Aktion	Am besten zu verwenden, wenn
Orchestration Pipelines	Verwenden Sie Pipelines, um wiederholt anwendbare und geplante Abläufe zu erstellen, die Notebooks, Data Refineryund Pipelines für maschinelles Lernen automatisieren, von der Datenaufnahme bis zum Modelltraining, -test und -bereitstellung.	Sie möchten einige oder alle Schritte in einem MLOps-Ablauf automatisieren.

Beispiel: Automatisierter ML-Lebenszyklus der Golden Bank

Die Data-Scientists der Goldenen Bank können Pipelines verwenden, um den gesamten Lebenszyklus und die Prozesse von Data Science und MLOps zu automatisieren, um das erneute Training des Modells zu vereinfachen.

Tutorials für Data Science und MLOps

Lernprogramm	Beschreibung	Fachkenntnisse für das Lernprogramm
Orchestrierung einer KI-Pipeline mit Modellüberwachung	Sie trainieren ein Modell, stufen es in einen Bereitstellungsbereich hoch und stellen das Modell bereit.	Führen Sie ein Notebook aus.
Orchestrierung einer KI-Pipeline mit Datenintegration	Erstellen Sie eine End-to-End-Pipeline, die Daten vorbereitet und ein Modell trainiert.	Verwenden Sie die Drag-and-drop-Schnittstelle für Orchestrierungs-Pipelines, um eine Pipeline zu erstellen.