Anhand eines Eingabesatzes von Abfragen empfiehlt die Data Virtualization eine Rangliste von Daten-Caches, die die Leistung der Eingabeabfragen verbessern und potenziell zukünftige Abfrage-Workloads unterstützen können.
Bei den Eingabeabfragen handelt es sich um Abfragen, die an einer beliebigen Stelle innerhalb des vorherigen Tages bis zu den vorherigen 15 Tagen ausgeführt wurden und eine Ausführungszeit von mindestens einer Minute haben müssen. Die Empfehlungen gelten als 1 Tag gültig, nach dem sie sich ändern können, wenn sich die Abfrageworkload ändert.
Die Recommendation-Engine für Cache wendet beim Generieren von Empfehlungen zwei Modelle an.
Beim regelbasierten Modell wird mithilfe hoch entwickelter heuristischer Verfahren ermittelt, welche Cachekandidaten hilfreich für die Eingabe-Abfrageworkload sind.
Bei dem auf maschinellem Lernen basierenden Modell wird ein vortrainiertes Modell für maschinelles Lernen verwendet, das die zugrunde liegenden Abfragemuster erkennt und eine Vorhersage zu den Caches trifft, die hilfreich für eine potenzielle zukünftige Abfrageworkload sein können.
Bei beiden Modelle wird eine Rangliste der Cachekandidaten erzeugt. Diese Ranglisten werden von der Engine konsolidiert, um eine endgültige Gruppe von Empfehlungen zu generieren. Sie können auswählen, ob auf maschinellem Lernen basierende Cacheempfehlungen aktiviert oder inaktiviert werden sollen. Standardmäßig sind auf maschinellem Lernen basierende Cacheempfehlungen aktiviert.
Zusätzlich zu den Empfehlungen für die Cacheerstellung generiert die Engine auch an der vorherigen Nutzung und anderen Metriken ausgerichtete Empfehlungen für das Inaktivieren und Löschen von Caches. Diese Empfehlungen werden auf der Registerkarte für Aktive und Inaktive Caches für vorhandene Caches angezeigt.
Bei den auf maschinellem Lernen basierenden Cache-Empfehlungen werden die zugrunde liegenden Abfragemuster berücksichtigt und Cacheprognosen erzeugt, die für einen Tag gültig sind.
Bei Data Virtualization wird ein vorab trainiertes Modell verwendet, das auf einem Industriestandard-Datensatz trainiert wurde.
Sie können auswählen, ob auf maschinellem Lernen basierende Cacheempfehlungen aktiviert oder inaktiviert werden sollen.
Die Recommendation-Engine konsolidiert die Empfehlungen und erstellt die endgültige Gruppe von Empfehlungen anhand beider Modelle. Der Manager kann dann Datencaches aus diesen Empfehlungen hinzufügen.
Data Virtualization bietet eine Engine zur Erstellung einer Rangliste von Empfehlungen. Die Rangfolge der Empfehlungen zur Cache-Erstellung wird durch die Ausführungszeit von Abfragen, die Häufigkeit dieser Abfragen in der Eingabe-Arbeitslast und die Gewichtung der beiden Modelle bestimmt. Die Engine ist voll bewusst und empfiehlt nicht die Erstellung vorhandener Caches. Außerdem empfiehlt die Engine nicht die Erstellungdoppelter Caches.
Der Prozess zum Generieren von Cacheempfehlungen besteht aus fünf Phasen, wie in derfolgenden Abbildung dargestellt:
Abb. 1. Prozess für Cacheempfehlungen - Übersicht
Erfassen
Die Empfehlungsmaschine wählt eine Reihe von Kundenanfragen aus, deren Leistung verbessert werden muss und für die Caches empfohlen werden könnten. Von der Recommendation-Engine für Caches werden z. B. Informationen wie Abfragetext, Ausführungszeit, Kardinalität, Zeitmarke und Häufigkeit für den angegebenen Zeitraum erfasst.
Die folgende Abbildung zeigt, wie Abfragen aus archivierten Workloadsgefiltert werden, um die endgültige Abfragegruppe als Eingabe für die Recommendation-Enginezusammenzustellen:Abbildung 2: Stage "Collection" im Cacheempfehlungsprozess.
Die Einstellungen für die Cache-Konfiguration werden durch ' Data Virtualization ' Manager und ' Cache-Empfehlungen konfigurieren ' definiert.
Extrahieren
Die Recommendation-Engine generiert potenzielle Cachekandidaten für die Eingabe-Abfrageworkload.
Übersetzen
Die Recommendation-Engine konvertiert und konsolidiert die Kandidaten, um sicherzustellen, dass sie syntaktisch und semantisch korrekt, eindeutig sind und alle Db2 -Einschränkungen erfüllen.
Bewerten
Der Motor wertet die umgewandelten Definitionen aus, indem er jeden Cache-Kandidaten mit der Arbeitslast der Eingabeabfrage vergleicht, um ihre Effektivität, ihren Rang und ihre Sortierung zu bestimmen. Außerdem wird für das Scoring des Modells für maschinelles Lernen ein hochdimensionaler Merkmalvektor für jeden Kandidaten erstellt.Abb. 3 Bewertungsstufe im Prozess für Cacheempfehlungen.
Als Ergebnis der Auswertung erstellt die Recommendation-Engine einen Übereinstimmungswertfür jeden Cachekandidaten. Die Bewertung jedes Kandidaten basiert auf den folgenden Kriterien.
Übereinstimmung : Anzahl der Abfragen, die mit dem Cache-Kandidaten übereinstimmen.
Vielfalt : Verschiedene Abfragen, die mit dem Cache-Kandidaten übereinstimmen.
Kardinalität : Größe der Ergebnismenge, die der Cache-Kandidat abgerufen hat.
Leistung : Ausführungszeit von Abfragen, die mit dem Cache-Kandidaten übereinstimmen.
Rang und Sortierung
Die Recommendation-Engine sortiert die Cachekandidaten und stuft sie in eine Rangfolge ein,um die endgültige Liste der Empfehlungen zu erstellen. Die endgültige Liste der Empfehlungen wird anhand der folgenden Kriterien erstellt.
Die Kandidaten werden anhand eines gewichteten Messwerts sortiert, der die Ausführungsdauer und -häufigkeit der Abfragen berücksichtigt.
Die gleichrangige Einstufung von Kandidaten wird auf der Basis von Abfragehäufigkeit und -kardinalität vermieden.
Abbildung 4. Stage des "Ranking und Sortierung" im Prozess für Cacheempfehlungen.
War das Thema hilfreich?
0/1000
Focus sentinel
Focus sentinel
Focus sentinel
Focus sentinel
Focus sentinel
Cloud Pak for Data relationship map
Use this interactive map to learn about the relationships between your tasks, the tools you need, the services that provide the tools, and where you use the tools.
Select any task, tool, service, or workspace
You'll learn what you need, how to get it, and where to use it.
Tasks you'll do
Some tasks have a choice of tools and services.
Tools you'll use
Some tools perform the same tasks but have different features and levels of automation.
Create a notebook in which you run Python, R, or Scala code to prepare, visualize, and analyze data, or build a model.
Automatically analyze your tabular data and generate candidate model pipelines customized for your predictive modeling problem.
Create a visual flow that uses modeling algorithms to prepare data and build and train a model, using a guided approach to machine learning that doesn’t require coding.
Create and manage scenarios to find the best solution to your optimization problem by comparing different combinations of your model, data, and solutions.
Create a flow of ordered operations to cleanse and shape data. Visualize data to identify problems and discover insights.
Automate the model lifecycle, including preparing data, training models, and creating deployments.
Work with R notebooks and scripts in an integrated development environment.
Create a federated learning experiment to train a common model on a set of remote data sources. Share training results without sharing data.
Deploy and run your data science and AI solutions in a test or production environment.
Find and share your data and other assets.
Import asset metadata from a connection into a project or a catalog.
Enrich imported asset metadata with business context, data profiling, and quality assessment.
Measure and monitor the quality of your data.
Create and run masking flows to prepare copies of data assets that are masked by advanced data protection rules.
Create your business vocabulary to enrich assets and rules to protect data.
Track data movement and usage for transparency and determining data accuracy.
Track AI models from request to production.
Create a flow with a set of connectors and stages to transform and integrate data. Provide enriched and tailored information for your enterprise.
Create a virtual table to segment or combine data from one or more tables.
Measure outcomes from your AI models and help ensure the fairness, explainability, and compliance of all your models.
Replicate data to target systems with low latency, transactional integrity and optimized data capture.
Consolidate data from the disparate sources that fuel your business and establish a single, trusted, 360-degree view of your customers.
Services you can use
Services add features and tools to the platform.
Develop powerful AI solutions with an integrated collaborative studio and industry-standard APIs and SDKs. Formerly known as Watson Studio.
Quickly build, run and manage generative AI and machine learning applications with built-in performance and scalability. Formerly known as Watson Machine Learning.
Discover, profile, catalog, and share trusted data in your organization.
Create ETL and data pipeline services for real-time, micro-batch, and batch data orchestration.
View, access, manipulate, and analyze your data without moving it.
Monitor your AI models for bias, fairness, and trust with added transparency on how your AI models make decisions.
Provide efficient change data capture and near real-time data delivery with transactional integrity.
Improve trust in AI pipelines by identifying duplicate records and providing reliable data about your customers, suppliers, or partners.
Increase data pipeline transparency so you can determine data accuracy throughout your models and systems.
Where you'll work
Collaborative workspaces contain tools for specific tasks.
Where you work with data.
> Projects > View all projects
Where you find and share assets.
> Catalogs > View all catalogs
Where you deploy and run assets that are ready for testing or production.
> Deployments
Where you manage governance artifacts.
> Governance > Categories
Where you virtualize data.
> Data > Data virtualization
Where you consolidate data into a 360 degree view.