0 / 0
Zurück zur englischen Version der Dokumentation

Beziehungen identifizieren

Letzte Aktualisierung: 05. Juli 2024
Beziehungen identifizieren

Führen Sie eine Beziehungsanalyse durch, um Schlüsselbeziehungen zwischen Datenassets oder überlappende oder redundante Daten in Spalten zu identifizieren.

Beziehungen sind Verbindungen zwischen Datenassets, die zugehörige Informationen enthalten. Sie erstellen solche Beziehungen, indem Sie angeben, dass Schlüsselwerte in einem Datenasset Schlüsselwerten in einem oder mehreren anderen Datenassets entsprechen. Durch die Identifizierung dieser Verbindungen können Sie herausfinden, wie Ihre Daten zusammenpassen.

Eine Schlüsselbeziehungsanalyse identifiziert Paare von Primär-und Fremdschlüsseln mit einer Eins-zu-viele-Beziehung zwischen zwei Datenassets in einer relationalen Datenbank. Ein Primärschlüssel ist eine Spalte oder eine Spaltengruppe, die jeden Datensatz in einem Datenasset eindeutig identifiziert. Ein Fremdschlüssel ist eine Spalte oder eine Spaltengruppe in einem Datenasset, die auf die Primärschlüsselspalten in einem anderen Datenasset verweist. Mithilfe der Beziehungsinformationen können Sie festlegen, wie Datenassets verknüpft werden können.

Eine Überlappung liegt vor, wenn Inhalt aus mehreren Quellen verfügbar ist. Bei der Überlappungsanalyse wird nach identischen oder ähnlichen Strukturen in Datenassets gesucht, indem Spaltenwerte innerhalb eines Datenassets oder zwischen Datenassets verglichen werden. Auf diese Weise können Sie mithilfe der Überlappungsanalyse ermitteln, ob die Daten eindeutig oder ähnlich sind und wie sehr sich die Daten möglicherweise überschneiden.

Die Ergebnisse von Beziehungsanalysen sind kumulativ. Jedes Mal, wenn Sie eine Analyse ausführen, fügt die Analyse neue Beziehungen hinzu oder aktualisiert Beziehungen, die in früheren Analysen identifiziert wurden.

Voraussetzungen

Der DataStage -Service muss für die Ausführung von Beziehungsanalysen implementiert werden.

Alle Operationen, die im Rahmen einer Metadatenanreicherung ausgeführt werden, erfordern Berechtigungsnachweise für eine sichere Autorisierung. Normalerweise wird Ihr Benutzer-API-Schlüssel verwendet, um solche Operationen mit langer Laufzeit ohne Unterbrechung auszuführen. Wenn beim Versuch, eine Schlüsselbeziehungsanalyse oder eine Überlappungsanalyse auszuführen, keine Berechtigungsnachweise verfügbar sind, werden Sie aufgefordert, einen API-Schlüssel zu erstellen. Dieser API-Schlüssel wird dann als Ihre Taskberechtigungsnachweise gespeichert. Siehe Benutzer-API-Schlüssel verwalten.

Wenn Verbindungen zu den Datenquellen gesperrt sind, werden Sie aufgefordert, Ihre persönlichen Berechtigungsnachweise einzugeben. Dieser einmalige Schritt entsperrt die Verbindungen permanent für Sie.

Sie können tiefe Beziehungsanalysen durchführen, ohne zuvor Assetprofile zu erstellen. Die Analyse der tiefen Schlüssel-oder Überlappungsbeziehungen stützt sich nicht auf Profilinformationen wie die Häufigkeitsverteilung von Spaltenwerten. Stattdessen werden Spaltendaten direkt analysiert.

Schlüsselbeziehungsanalyse ausführen

Führen Sie eine Schlüsselbeziehungsanalyse aus, um einspaltige Schlüsselbeziehungen oder Verbundschlüsselbeziehungen zu ermitteln. Die Analyse ermittelt potenzielle Beziehungskandidaten und schlägt die besten Beziehungen zwischen Datenassets basierend auf der Konfidenz für jede potenzielle Beziehung vor. Für die Berechnung der Konfidenz der Beziehung werden die folgenden Informationen berücksichtigt:

  • Die Anzahl der Werte aus dem Primärschlüssel, die im Fremdschlüssel vorhanden sind.
  • Die Anzahl der verwaisten Werte im Fremdschlüssel
  • Ähnlichkeit zwischen den Namen der Spalten zwischen dem Primärschlüssel und dem Fremdschlüssel
  • Die Position der Spalten in den Datenassets

Beziehungen zwischen Spalten unterschiedlicher Datentypen können wie folgt erkannt werden:

  • Datentypen BIGINT und SMALLINT
  • Datentypen BIGINT und DECIMAL
  • Datentypen BIGINT und CHAR
  • Datentypen BIGINT und VARCHAR
  • Datentypen DECIMAL und VARCHAR
  • Datentypen CHAR und VARCHAR
  • Datentypen VARCHAR und LONG VARCHAR

Die Paare mit einer Konfidenz, die den definierten Vorschlagsschwellenwert überschreitet, werden als Kandidatenbeziehungen für ein Asset aufgelistet. Sie können auch die automatische Zuweisung von Beziehungen aktivieren. Weitere Informationen zu den Schwellenwerten finden Sie unter Wichtige Beziehungen .

Dieser Typ von Beziehungsanalyse überprüft einzelne Spalten in den ausgewählten Datenassets auf Ähnlichkeit mit dem Spaltennamen und den Profildaten. Wenn Sie keine ausführliche Analyse ausführen, werden die Schwellenwerte angewendet, die in den Standardanreicherungseinstellungen festgelegt sind.

Wenn Sie eine detaillierte Analyse ausführen möchten, werden die tatsächlichen Spaltendaten überprüft, um Primär-und Fremdschlüssel zu identifizieren. Sie können auch auswählen, ob Verbundschlüsselbeziehungen identifiziert oder die Analyse für eine Stichprobe von Daten anstelle des gesamten Datenassets ausgeführt werden soll. Bei der Tiefenanalyse greifen die in den Anreicherungseinstellungen festgelegten Schwellenwerte nicht. Stattdessen können Sie für jeden einzelnen Analyselauf Schwellenwerte festlegen.

Die detaillierte Analyse dauert länger als die Standardanalyse der Schlüsselbeziehungen. Wenn Sie auch entscheiden, Verbundschlüssel zu identifizieren, nimmt die Verarbeitungszeit erheblich zu. Die Analyse kann mehrere Tage oder länger ausgeführt werden. Nur benachbarte Spalten werden geprüft, wobei benachbart direkt nebeneinander bedeutet, wenn der Datentyp der Spalten eine Schlüsselanalyse zulässt, oder nahe beieinander, wenn Spalten dazwischen übersprungen werden, weil ihre Datentypen keine Schlüsselanalyse zulassen.

Gehen Sie wie folgt vor, um eine Schlüsselbeziehungsanalyse für ein oder mehrere Assets auszuführen:

  1. Öffnen Sie das Metadatenaufbereitungsasset.

  2. Wählen Sie auf der Registerkarte Assets die gewünschten Assets aus.

  3. Wählen Sie in der Symbolleiste Aufbereiten > Beziehungen identifizieren aus. Der Standardanalysetyp ist Schlüssel.

    Dieser Typ von Beziehungsanalyse wird normalerweise für mehrere Spalten in den ausgewählten Datenassets ausgeführt. Standardmäßig ist die Länge des Verbundschlüssels auf 2 gesetzt.

    Die detaillierte Analyse der Schlüsselbeziehungen überprüft die tatsächlichen Spaltendaten und ist daher ein zeitaufwendiger Prozess. Möglicherweise möchten Sie die Analyse für eine Stichprobe von Daten anstelle des gesamten Datenassets ausführen.

    Die Standardanreicherungseinstellungen für Schlüsselbeziehungen werden nicht wirksam. Für die vertiefte Beziehungsanalyse gelten andere Voreinstellungen für Vorschläge und automatische Zuordnung:

    • Der Standardschwellenwert für Vorschläge liegt bei 25 %.
    • Die automatische Zuordnung von Beziehungen ist aktiviert. Der Standardzuweisungsschwellenwert liegt bei 90 %.

    Sie können diese Voreinstellungen für jeden einzelnen Analyselauf überschreiben.

    Um eine flache Schlüsselbeziehungsanalyse für einzelne Spalten in Ihren Datenassets auszuführen, können Sie die Aufbereitungsoption Beziehungen festlegen verwenden.

  4. Klicken Sie auf Run.

Schlüsselbeziehungen zuordnen, Zuordnung aufheben oder entfernen

Nach Abschluss der Schlüsselbeziehungsanalyse können Sie Beziehungen hier anzeigen und verwalten:

  • Auf der Registerkarte Schlüssel der Detailanzeige des Assets wird ein Pluszeichen angezeigt, wenn Kandidatenbeziehungen erkannt wurden. Klicken Sie auf das Pluszeichen, prüfen Sie die vorgeschlagenen Beziehungen für dieses Asset und weisen Sie die am besten geeigneten Beziehungen zu. Sie können auch die Zuordnung für dieses Asset aufheben oder Beziehungen für dieses Asset entfernen.

  • Der Link Schlüsselbeziehungen anzeigen im Aufbereitungsbereich ist aktiv. Klicken Sie auf den Link, um eine Liste aller erkannten Schlüsselbeziehungen auf der Registerkarte Schlüssel anzuzeigen. Prüfen und ordnen Sie vorgeschlagene Beziehungen zu oder heben Sie die Zuordnung von Beziehungen auf. Sie können auch vorgeschlagene und zugeordnete Beziehungen entfernen.

    Um nur Beziehungen mit einem zugeordneten Primärschlüssel anzuzeigen, filtern Sie die Liste nach Primärschlüssel.

    In der Schlüsselbeziehungstabelle können Sie auch eine grafische Ansicht der Beziehungen jedes Schlüssels öffnen, um die Beziehungen zu überprüfen und verwalten. Wählen Sie im Überlaufmenü für einen Schlüssel Diagramm öffnenaus oder wählen Sie Details anzeigen aus und klicken Sie dann in der Seitenanzeige auf Diagramm anzeigen .

Wenn Sie die Zuweisung einer Beziehung aufheben, wird ihr Status auf Vorgeschlagenzurückgesetzt. Wenn Sie eine Beziehung entfernen, wird sie vollständig entfernt. Eine entfernte Beziehung kann erneut vorgeschlagen werden, wenn Sie die Analyse erneut ausführen.

Überlappungsanalyse ausführen

Führen Sie eine Überlappungsanalyse aus, um überlappende oder potenziell redundante Daten in den Spalten eines oder mehrerer Datenassets zu ermitteln.

Gehen Sie wie folgt vor, um eine Schlüsselbeziehungsanalyse für ein oder mehrere Assets auszuführen:

  1. Öffnen Sie das Metadatenaufbereitungsasset.

  2. Wählen Sie auf der Registerkarte Assets die gewünschten Assets aus.

  3. Wählen Sie in der Symbolleiste Aufbereiten > Beziehungen identifizieren aus.

  4. Wählen Sie Überlappung als Analysetyp aus. Optional können Sie die Stichprobeneinstellung anpassen. Standardmäßig werden alle Datensätze eines Datenassets analysiert. Dies kann zeitaufwendig sein. Sie können einen niedrigeren Prozentsatz der zu prüfenden Daten auswählen. Wenn Sie den Stichprobenumfang reduzieren, werden die Datensätze, die in der Stichprobe enthalten sind, zufällig ausgewählt.

    Die Standardanreicherungseinstellungen werden nicht wirksam. Für die Überschneidungsanalyse gelten andere Voreinstellungen für Vorschläge und automatische Zuordnung:

    • Der Standardschwellenwert für Vorschläge liegt bei 25 %.
    • Die automatische Zuordnung von Beziehungen ist aktiviert. Der Standardzuweisungsschwellenwert liegt bei 90 %.

    Sie können diese Voreinstellungen für jeden einzelnen Analyselauf überschreiben.

Überlappungsanalyseergebnisse überprüfen

Zeigen Sie die Analyseergebnisse an, um die Beziehung der Spaltendaten zu ermitteln.

So prüfen und verwalten Sie Überlappungsbeziehungen:

  1. Klicken Sie im Aufbereitungsbereich auf den Link Schlüsselbeziehungen anzeigen . Auf der Registerkarte Überlappung werden die folgenden Informationen zu jeder erkannten Beziehung angezeigt:

    • Das Basisasset und das paarige Asset
    • Der Beziehungsstatus
    • Die maximale Anzahl unterschiedlicher Werte
    • Gesamtzahl und Prozentsatz der gemeinsamen Spaltenwerte
  2. Erweitern Sie einen Eintrag, um weitere Informationen anzuzeigen:

    • Die Namen der Basisspalte und der paarigen Spalte, die überlappende Daten anzeigen

    • Überlappungstyp für die Basis und die paarige Spalte:

      Identisch
      Basis-und Paarspalte haben dieselben Werte. Die Prozentsätze für beide sind 100% und 100%.
      Untergruppe
      Alle Werte in dieser Spalte befinden sich in der anderen Spalte, aber die andere Spalte enthält weitere Werte. Der Prozentsatz für die erste Spalte ist 100%, aber der Prozentsatz für die andere Spalte ist kleiner als 100%.
      Superset
      Alle Werte in der anderen Spalte sind in dieser Spalte, aber nicht alle Werte in dieser Spalte sind in der anderen Spalte. Der Prozentsatz für die andere Spalte ist 100%, aber der Prozentsatz für die erste Spalte ist kleiner als 100%.
      Überlappung
      Einige der Werte in den Spalten haben einige Überlappungen, aber nicht alle Werte in beiden Spalten sind gemeinsam. Die Prozentsätze sind kleiner als 100%.
    • Die Gesamtzahl der unterschiedlichen Werte in der Basisspalte sowie die Anzahl und der Prozentsatz der Werte, die der paarigen Spalte gemeinsam sind.

    • Die Gesamtzahl unterschiedlicher Werte in der paarigen Spalte sowie die Anzahl und der Prozentsatz der Werte, die der Basisspalte gemeinsam sind.

  3. Weisen Sie Beziehungen nach Bedarf zu.

Auf Jobausführungsdetails zugreifen

Während Sie über die Seitenanzeige auf die Jobdetails für die allgemeine Metadatenaufbereitung zugreifen können, müssen Sie die Registerkarte Jobs des Projekts aufrufen, um den Beziehungsanalysejob anzuzeigen. Der Job hat den Typ Schlüsselanalyse für Metadatenanreicherungsassets. Der Jobname folgt dem Muster metadata_enrichment_name (Relationship Detection).

Weitere Informationen

Übergeordnetes Thema: Datenassets aufbereiten