0 / 0
Zurück zur englischen Version der Dokumentation
Data Science und MLOps-Anwendungsfall
Data Science und MLOps-Anwendungsfall

Data Science und MLOps-Anwendungsfall

Für die Operationalisierung der Datenanalyse und Modellerstellung benötigt Ihr Unternehmen integrierte Systeme und Prozesse. Cloud Pak for Data as a Service stellt die Prozesse und Technologien bereit, mit denen Ihr Unternehmen Modelle für maschinelles Lernen und andere Data-Science-Anwendungen entwickeln und bereitstellen kann.

Sehen Sie sich dieses Video an, um den Anwendungsfall für die Implementierung einer Data-Science-und MLOps-Lösung in Cloud Pak for Datazu sehen.

Dieses Video bietet eine visuelle Darstellung als Alternative zu den im Folgenden schriftlich dokumentierten Schritten.

Challenges (Abfragen)

Die Einrichtung von Data-Science-und MLOps-Lösungen für Unternehmen umfasst die folgenden Herausforderungen:

Zugriff auf qualitativ hochwertige Daten
Organisationen müssen einfachen Zugriff auf qualitativ hochwertige, regulierte Daten für Data-Science-Teams bereitstellen, die die Daten zum Erstellen von Modellen verwenden.

Operationalisierung der Modellerstellung und -bereitstellung
Organisationen müssen wiederholt anwendbare Prozesse implementieren, um Modelle schnell und effizient in Produktionsumgebungen erstellen und implementieren zu können.

Modelle für Überwachung und erneutes Training
Organisationen müssen die Überwachung und das erneute Training von Modellen basierend auf Produktionsfeedback automatisieren.

Sie können diese Herausforderungen lösen, indem Sie ein Datenfabric in Cloud Pak for Data as a Serviceimplementieren.


Beispiel: Herausforderungen der Goldenen Bank

Folgen Sie der Geschichte der Golden Bank, während sie einen Data-Science-und MLOps-Prozess implementiert, um ihr Geschäft zu erweitern, indem sie kostengünstige Hypothekenverlängerungen für Online-Anwendungen anbieten. Data-Scientists der Golden Bank müssen ein Hypothekengenehmigungsmodell erstellen, das Risiken vermeidet und alle Antragsteller fair behandelt. Außerdem müssen sie das erneute Modelltraining automatisieren, um die Modellleistung zu optimieren.

Prozess

Um Data Science und MLOps für Ihr Unternehmen zu implementieren, kann Ihr Unternehmen diesen Prozess befolgen:

  1. Daten vorbereiten und gemeinsam nutzen
  2. Modelle erstellen und trainieren
  3. Modellbereitstellung
  4. Monitormodelle
  5. Automatisierung des KI-Lebenszyklus

Die Services Watson Studio, Watson Machine Learning, Watson OpenScaleund Watson Knowledge Catalog in Cloud Pak for Data as a Service stellen die Tools und Prozesse bereit, die Ihre Organisation zum Implementieren einer Data Science-und MLOps-Lösung benötigt.

Abbildung zum Ablauf des Data-Science-Anwendungsfalls

1. Daten vorbereiten und teilen

Data-Scientists können ihre eigenen Datasets vorbereiten und in einem Katalog gemeinsam nutzen. Der Katalog dient als Featuregeschäft, in dem Ihre Data-Scientist-Teams hochwertige Datenassets mit den benötigten Features finden können. Sie können Datenassets aus einem Katalog in einem Projekt hinzufügen, wo sie zusammenarbeiten, um die Daten vorzubereiten, zu analysieren und zu modellieren.

Was Sie verwenden können Aktion Am besten zu verwenden, wenn
Data Refinery Greifen Sie auf Daten aus verschiedenen Datenquellenverbindungen zu und optimieren Sie sie.

Verwenden Sie die resultierenden Datasets als Momentaufnahmen, die Daten kombinieren, verknüpfen oder filtern können, damit andere Data-Scientists sie analysieren und untersuchen können.

Stellen Sie die resultierenden Datasets in Katalogen zur Verfügung.
Sie müssen die Daten visualisieren, wenn Sie sie formen oder bereinigen möchten.

Sie möchten den Prozess der Vorbereitung großer Rohdatenmengen für die Analyse vereinfachen.
Kataloge Verwenden Sie Kataloge in Watson Knowledge Catalog als Feature-Store, um Ihre Assets so zu organisieren, dass sie von den Mitarbeitern in Ihrem Unternehmen gemeinsam genutzt werden können.

Nutzen Sie die KI-basierte semantische Suche und Empfehlungen, damit Benutzer finden, was sie benötigen.
Ihre Benutzer müssen die hochwertigen Daten leicht verstehen, zusammenarbeiten, aufbereiten und darauf zugreifen können.

Sie möchten die Sichtbarkeit von Daten und die Zusammenarbeit zwischen Geschäftsbenutzern verbessern.

Sie benötigen Benutzer zum Anzeigen, Zugreifen, Bearbeiten und Analysieren von Daten, ohne ihr physisches Format oder ihre Position zu verstehen und ohne sie verschieben oder kopieren zu müssen.

Sie möchten, dass Benutzer Assets durch Bewertung und Prüfung erweitern.


Beispiel: Katalog der Goldenen Bank

Der Leiter des Governance-Teams erstellt den Katalog "Mortgage Approval Catalog" und fügt die Data-Stewards und Data-Scientists als Katalogmitarbeiter hinzu. Die Data-Stewards publizieren die von ihnen erstellten Datenassets im Katalog. Die Data-Scientists suchen die von den Data-Stewards kuratierten Datenassets im Katalog und kopieren diese Assets in ein Projekt. In ihrem Projekt können die Data-Scientists die Daten optimieren, um sie für das Training eines Modells vorzubereiten.


2. Modelle erstellen und trainieren

Um Vorhersageerkenntnisse basierend auf Ihren Daten zu erhalten, können Data-Scientists, Geschäftsanalysten und Entwickler für maschinelles Lernen Modelle erstellen und trainieren. Data-Scientists verwenden Cloud Pak for Data as a Service -Services, um die KI-Modelle zu erstellen und sicherzustellen, dass die richtigen Algorithmen und Optimierungen verwendet werden, um Vorhersagen zu treffen, die bei der Lösung von Geschäftsproblemen helfen.

Was Sie verwenden können Aktion Am besten zu verwenden, wenn
AutoAI Verwenden Sie AutoAI in Watson Studio , um Algorithmen automatisch auszuwählen, Funktionen zu entwickeln, Pipelinekandidaten zu generieren und Modellpipelinekandidaten zu trainieren.

Bewerten Sie anschließend die eingestuften Pipelines und speichern Sie die am besten als Modelle.

Stellen Sie die trainierten Modelle in einem Bereich bereit oder exportieren Sie die Modelltrainingspipeline, die Ihnen gefällt, aus AutoAI in ein Notebook, um sie zu optimieren.
Sie wollen eine erweiterte und automatisierte Methode zum schnellen Erstellen einer guten Gruppe von Trainingspipelines und -modellen.

Sie möchten in der Lage sein, die generierten Pipelines zu exportieren, um sie zu optimieren.
Notebooks und Scripts Verwenden Sie Notebooks und Scripts in Watson Studio , um eigenen Trainings-und Auswertungscode für das Feature-Engineering-Modell in Python oder R zu schreiben. Verwenden Sie im Projekt verfügbare Trainingsdatasets oder Verbindungen zu Datenquellen wie Datenbanken, Data Lakes oder Objektspeicher.

Codieren Sie mit Ihren bevorzugten Open-Source-Frameworks und -Bibliotheken.
Sie möchten Python -oder R-Codierungskenntnisse verwenden, um die vollständige Kontrolle über den Code zu haben, der zum Erstellen, Trainieren und Auswerten der Modelle verwendet wird.
SPSS Modeler-Abläufe Verwenden Sie SPSS Modeler -Abläufe in Watson Studio , um eigene Trainings-, Evaluierungs-und Scoring-Abläufe für Modelle zu erstellen. Verwenden Sie Trainingsdatasets, die im Projekt verfügbar sind, oder Verbindungen zu Datenquellen wie Datenbanken, Data Lakes oder Objektspeicher. Sie möchten eine einfache Methode zum Untersuchen von Daten und zum Definieren von Trainings-, Bewertungs-und Scoring-Abläufen für Modelle.
RStudio Analysieren Sie Daten und erstellen und testen Sie Modelle, indem Sie mit R in RStudio arbeiten. Sie möchten eine Entwicklungsumgebung für die Arbeit in R verwenden.
Decision Optimization Bereiten Sie Daten vor, importieren Sie Modelle, lösen Sie Probleme und vergleichen Sie Szenarios, visualisieren Sie Daten, finden Sie Lösungen, erstellen Sie Berichte und speichern Sie Modelle für die Bereitstellung mit Watson Machine Learning. Sie müssen Millionen von Möglichkeiten bewerten, um die beste Lösung für ein präskriptives Analyseproblem zu finden.
Föderiertes Lernen Trainieren Sie ein allgemeines Modell, das verteilte Daten verwendet. Sie müssen ein Modell trainieren, ohne Daten zu verschieben, zu kombinieren oder gemeinsam zu nutzen, die über mehrere Standorte verteilt sind.


Beispiel: Modellerstellung und -schulung der Golden Bank

Data-Scientists der Golden Bank erstellen ein Modell "Hypothekengenehmigungsmodell", das unvorhergesehene Risiken vermeidet und alle Antragsteller fair behandelt. Sie möchten den Verlauf und die Leistung des Modells von Anfang an verfolgen und dem "Mortgage Approval Catalog" einen Modellanwendungsfall hinzufügen. Sie führen ein Notebook aus, um das Modell zu erstellen und vorherzusagen, welche Antragsteller für Hypotheken qualifiziert sind. Die Details des Modelltrainings werden automatisch als Metadaten im Modellanwendungsfall erfasst.


3. Modelle bereitstellen

Wenn Mitglieder des Betriebsteams Ihre KI-Modelle einsetzen, stehen die Modelle auch für Anwendungen bereit, die sie für Scoring und Vorhersagen nutzen können, um Laufwerkaktionen zu fördern.

Was Sie verwenden können Aktion Am besten zu verwenden, wenn
Benutzerschnittstelle für Bereiche Verwenden Sie die Bereichsbenutzerschnittstelle in Watson Machine Learning , um Modelle und andere Assets aus Projekten in Bereichen bereitzustellen. Sie möchten Modelle bereitstellen und Implementierungsinformationen in einem Arbeitsbereich mit Onlinezusammenarbeit anzeigen.


Beispiel: Modellbereitstellung der Golden Bank

Die Mitglieder des Betriebsteams der Golden Bank fördern das "Hypothekengenehmigungsmodell" aus dem Projekt in einen Bereitstellungsbereich und erstellen anschließend eine Onlinemodellbereitstellung.


4. Implementierte Modelle überwachen

Nachdem Modelle implementiert wurden, ist es wichtig, sie zu überwachen, um sicherzustellen, dass sie gut funktionieren. Data-Scientists müssen auf Probleme mit der Modellleistung und Datenkonsistenz achten.

Was Sie verwenden können Aktion Am besten zu verwenden, wenn
Watson OpenScale Überwachung von Modellfairnessproblemen über mehrere Funktionen hinweg.

Überwachung der Modellleistung und Datenkonsistenz im Zeitverlauf.

Erläutern Sie, wie das Modell bei bestimmten Vorhersagen mit gewichteten Faktoren angekommen ist.

Verwalten und dokumentieren Sie die Modellgovernance und den Lebenszyklus in Ihrem Unternehmen.
Sie verfügen über Merkmale, die geschützt sind oder zur Fairness bei der Vorhersage beitragen können.

Sie möchten die Modellleistung und Datenkonsistenzen im Zeitverlauf verfolgen.

Sie möchten wissen, warum das Modell bestimmte Vorhersagen liefert.


Beispiel: Modellüberwachung der Goldenen Bank

Data-Scientists von der Goldenen Bank verwenden Watson OpenScale , um das implementierte "Hypothekengenehmigungsmodell" zu überwachen, um sicherzustellen, dass es korrekt ist, und alle Antragsteller von Hypotheken der Goldenen Bank fair zu behandeln. Sie führen ein Notebook aus, um Monitore für das Modell einzurichten, und optimieren dann die Konfiguration mithilfe der Watson OpenScale -Benutzerschnittstelle. Mithilfe von Metriken aus der Qualitätsüberwachung und Fairnessüberwachung von Watson OpenScale bestimmen die Data-Scientists, wie gut das Modell Ergebnisse vorhersagt und ob es verzerrte Ergebnisse erzeugt. Sie erhalten auch Einblicke, wie das Modell zu Entscheidungen kommt, damit die Entscheidungen den Hypothekenantragstellern erklärt werden können.


5. Automatisieren Sie den ML-Lebenszyklus

Ihr Team kann den Lebenszyklus von MLOps und KI mit Watson Pipelines automatisieren und vereinfachen.

Was Sie verwenden können Aktion Am besten zu verwenden, wenn
Watson Pipelines Verwenden Sie Pipelines, um wiederholt anwendbare und geplante Abläufe zu erstellen, die Notebooks, Data Refineryund Pipelines für maschinelles Lernen automatisieren, von der Datenaufnahme bis zum Modelltraining, -test und -bereitstellung. Sie möchten einige oder alle Schritte in einem MLOps-Ablauf automatisieren.


Beispiel: Automatisierter ML-Lebenszyklus der Golden Bank

Die Data-Scientists der Goldenen Bank können Pipelines verwenden, um den gesamten Lebenszyklus und die Prozesse von Data Science und MLOps zu automatisieren, um das erneute Training des Modells zu vereinfachen.


Tutorials für Data Science und MLOps

Lernprogramm Beschreibung Fachkenntnisse für das Lernprogramm
Orchestrierung einer KI-Pipeline mit Modellüberwachung Sie trainieren ein Modell, stufen es in einen Bereitstellungsbereich hoch und stellen das Modell bereit. Führen Sie ein Notebook aus.
Orchestrate und KI-Pipeline mit Datenintegration Erstellen Sie eine End-to-End-Pipeline, die Daten vorbereitet und ein Modell trainiert. Verwenden Sie die Drag-and-drop-Schnittstelle von Watson Pipelines, um eine Pipeline zu erstellen.

Weitere Informationen

Übergeordnetes Thema: Übersicht über die Datenstrukturlösung