0 / 0
Zurück zur englischen Version der Dokumentation

RAG-Experiment-Einstellungen anpassen

Letzte Aktualisierung: 05. März 2025
RAG-Experiment-Einstellungen anpassen

Wenn Sie in ' AutoAI, ' eine abruferweiterte Generierungslösung erstellen, können Sie die Experimenteinstellungen anpassen, um Ihre Ergebnisse zu optimieren.

Wenn Sie ein RAG-Experiment mit den Standardeinstellungen durchführen, wählt der AutoAI aus:

  • Die Optimierungsmetrik, die bei der Suche nach der besten RAG-Pipeline maximiert werden soll
  • Die einzubettenden Modelle, die auf der verfügbaren Liste basieren, sollten ausprobiert werden
  • Die zu testenden Stiftungsmodelle, basierend auf der verfügbaren Liste

Um mehr Kontrolle über das RAG-Experiment zu haben, können Sie die Experimenteinstellungen anpassen. Klicken Sie nach Eingabe der erforderlichen Experimentdefinitionsinformationen auf Experimenteinstellungen, um die Optionen vor der Ausführung des Experiments anzupassen. Die Einstellungen, die Sie überprüfen oder bearbeiten können, fallen in drei Kategorien:

  • Abrufen und Generieren : Wählen Sie aus, welche Metrik zur Optimierung der Auswahl des RAG-Musters verwendet werden soll, wie viele Daten abgerufen werden sollen und welche Modelle AutoAI für das Experiment verwenden kann.
  • Indexierung : Wählen Sie aus, wie die Daten in Blöcke unterteilt werden, welche Metrik zur Messung der semantischen Ähnlichkeit verwendet wird und welches Einbettungsmodell AutoAI für Experimente verwenden kann.
  • Zusätzliche Informationen: Überprüfen Sie die watsonx.ai Runtime-Instanz und die für das Experiment zu verwendende Umgebung.

Einstellungen für Abruf und Erzeugung

Zeigen Sie die Einstellungen an, die für die Erstellung der RAG-Pipelines verwendet werden, oder bearbeiten Sie sie.

Optimierungsmetrik

Wählen Sie die Metrik, die maximiert werden soll, wenn Sie nach den optimalen RAG-Mustern suchen. Weitere Informationen zu Optimierungsmetriken und deren Implementierung finden Sie unter RAG-Metriken.

  • Die Antworttreue misst, wie genau die generierte Antwort mit dem Kontext übereinstimmt, der aus dem Vektorspeicher abgerufen wurde. Die Punktzahl wird anhand einer lexikalischen Metrik berechnet, die zählt, wie viele der generierten Antwort-Token in dem aus dem Vektorspeicher abgerufenen Kontext enthalten sind. Eine hohe Punktzahl zeigt an, dass die Antwort den abgerufenen Kontext gut wiedergibt. Beachten Sie, dass eine hohe Treue-Bewertung nicht unbedingt auf die Richtigkeit der Antwort hinweist. Weitere Informationen zur Implementierung der Metrik finden Sie unter "Treue ".
  • Die Korrektheit der Antwort misst die Korrektheit der generierten Antwort im Vergleich zur richtigen Antwort, die in den Benchmark-Dateien bereitgestellt wird. Dies umfasst die Relevanz des abgerufenen Kontexts und die Qualität der generierten Antwort. Die Punktzahl wird anhand einer lexikalischen Metrik berechnet, die zählt, wie viele der Ground-Truth-Antwort-Token in der generierten Antwort enthalten sind. Weitere Informationen zur Implementierung der Metrik finden Sie unter "Korrektheit ".
  • Die Kontextkorrektheit gibt an, inwieweit der aus dem Vektorspeicher abgerufene Kontext mit dem im Benchmark bereitgestellten Ground-Truth-Kontext übereinstimmt. Die Punktzahl wird auf der Grundlage des Rangs des Ground-Truth-Kontexts unter den abgerufenen Blöcken berechnet. Je näher der Kontext der tatsächlichen Situation an der Spitze der Liste liegt, desto höher ist die Punktzahl. Weitere Informationen zur Implementierung der Metrik finden Sie unter [Kontextkorrektheit] (Weitere Informationen zu Optimierungsmetriken finden Sie unter RAG-Metriken ).

Abrufmethoden

Wählen Sie die Methode zum Abrufen der relevanten Daten. Die Retrieval-Methoden unterscheiden sich in der Art und Weise, wie sie Dokumente filtern und einstufen.

  • Bei der Methode "Window Retrieval" werden die abgerufenen Blöcke mit zusätzlichen Blöcken vor und nach den Blöcken umgeben, je nachdem, was im Originaldokument enthalten war. Diese Methode ist nützlich, um mehr Kontext einzubeziehen, der im ursprünglich abgerufenen Teil fehlen könnte. Die Fensterwiederherstellung funktioniert wie folgt:
    • Suche : Findet die relevantesten Dokumentabschnitte im Vektorspeicher.
    • Erweitern : Für jeden gefundenen Block werden die umliegenden Blöcke abgerufen, um Kontext bereitzustellen.
    • Jeder Block speichert seine Sequenznummer in seinen Metadaten.
    • Nach dem Abrufen eines Blocks werden die Block-Metadaten verwendet, um benachbarte Blöcke aus demselben Dokument abzurufen. Wenn beispielsweise window_size 2 ist, werden 2 Blöcke davor und 2 Blöcke danach hinzugefügt.
    • Zusammenführen : Kombiniert überlappenden Text innerhalb des Fensters, um Redundanzen zu entfernen.
    • Metadatenverwaltung : Führt Metadatenwörterbücher zusammen, indem dieselben Schlüssel beibehalten und Werte in Listen gruppiert werden.
    • Rückgabe : Gibt das zusammengeführte Fenster als neuen Block aus und ersetzt den ursprünglichen.
  • Eine einfache Abrufmethode findet die relevantesten Blöcke im Vektorspeicher.

Stiftungsmodelle, die Folgendes umfassen

Standardmäßig werden alle verfügbaren Fundamentmodelle, die AutoAI für RAG unterstützen, für Experimente ausgewählt. Sie können die Liste der Grundmodelle, die AutoAI für die Erstellung von RAG-Mustern berücksichtigen kann, manuell bearbeiten. Für jedes Modell können Sie auf "Modelldetails" klicken, um Details zum Modell anzuzeigen oder zu exportieren.

Eine Liste der verfügbaren Stiftungsmodelle mit einer Beschreibung finden Sie unter Stiftungsmodelle nach Aufgabe.

Maximale Anzahl von RAG-Mustern, die ausgeführt werden sollen

Sie können die Anzahl der RAG-Muster angeben, die in der Experimentierphase abgeschlossen werden sollen, bis zu einem Maximum von 20. Eine höhere Zahl vergleicht mehr Muster und kann zu Mustern mit höherer Punktzahl führen, verbraucht aber mehr Rechenressourcen.

Indexierungseinstellungen

Zeigen Sie die Einstellungen für die Erstellung der Textvektordatenbank aus der Dokumentensammlung an oder bearbeiten Sie sie.

Chunking

Die Chunking-Einstellungen bestimmen, wie indizierte Dokumente in kleinere Teile zerlegt werden, bevor sie in einen Vektorspeicher aufgenommen werden. Das Chunking von Daten ermöglicht die Suche und das Abrufen derjenigen Chunks in einem Dokument, die für eine Abfrage am relevantesten sind. Dadurch kann das Generierungsmodell nur die relevantesten Daten verarbeiten.

AutoAI RAG verwendet den rekursiven Text-Splitter von Langchain, um die Dokumente in Blöcke zu zerlegen. Diese Methode bewirkt, dass das Dokument hierarchisch zerlegt wird, wobei versucht wird, alle Absätze (und dann Sätze und dann Wörter) so lange wie möglich zusammenzuhalten, bis der Block kleiner als die angeforderte Blockgröße ist. Weitere Informationen zur rekursiven Chunking-Methode finden Sie unter "Retrieval recursively split by character " in der Langchain-Dokumentation.

Wie Sie Ihre Daten am besten aufteilen, hängt von Ihrem Anwendungsfall ab. Kleinere Textabschnitte ermöglichen eine detailliertere Interaktion mit dem Text und eine gezieltere Suche nach relevanten Inhalten, während größere Abschnitte mehr Kontext bieten können. Geben Sie für Ihren Anwendungsfall eine oder mehrere Optionen an:

  • Die Anzahl der Zeichen, die in jedem Datenblock enthalten sein sollen.
  • Die Anzahl der Zeichen, die sich für das Chunking von Daten überlappen müssen. Die Zahl muss kleiner als die Chunking-Größe sein.

Die ausgewählten Optionen werden in der Experimentierphase untersucht und verglichen.

Modelle einbetten

Einbettungsmodelle werden in Lösungen zur abrufgestützten Generierung verwendet, um Blöcke und Abfragen als Vektoren zu kodieren und ihre semantische Bedeutung zu erfassen. Die vektorisierten Eingabedatenblöcke werden in einen Vektorspeicher aufgenommen. Bei einer Abfrage wird die vektorisierte Darstellung verwendet, um den Vektorspeicher nach relevanten Blöcken zu durchsuchen.

Eine Liste der Einbettungsmodelle, die für die Verwendung mit AutoAI RAG-Experimenten verfügbar sind, finden Sie unter "Unterstützte Encoder-Modelle" unter watsonx.ai.

Weitere Informationen

Überprüfen Sie die für dieses Experiment verwendete watsonx.ai Runtime-Instanz und die Umgebungsdefinition.

Weitere Informationen

Retrieval-Augmented Generation (RAG)

Übergeordnetes Thema: Erstellen eines RAG-Experiments