Wenn Sie die erweiterte Profilerstellung für ein Datenasset ausführen, wird eine detaillierte Häufigkeitsverteilung für die unterschiedlichen Werte in jeder Spalte des Assets basierend auf den Quellendaten bestimmt.
Wenn Sie die Einstellungen für eine erweiterte Profilerstellungsausführung konfigurieren, haben Sie die Möglichkeit, die Häufigkeitsverteilungsinformationen ganz oder teilweise in eine Datenbanktabelle zu schreiben. Siehe Erweiterte Datenprofilerstellung. Sie können auf diese Tabelle mit Hilfe von Standard-Datenbankabfragen oder der IBM Knowledge Catalog API oder über das detaillierte Spaltenprofil zugreifen. Das Spaltenprofil zeigt jedoch nur die ersten 100 unterschiedlichen Werte an, unabhängig davon, wie viele Werte tatsächlich gespeichert sind.
Für jeden einzelnen Wert enthält die Tabelle die folgenden Informationen:
Spaltenname | Beschreibung |
---|---|
AssetId | Die ID des Datenassets im Projekt. |
ChangeDate | Das Datum, an dem die Informationen aktualisiert wurden. |
ColumnName | Der Name der Spalte im Datenasset. |
DataClassification | Eine durch Kommas (,) getrennte Liste mit IDs der Datenklassen, die der Spalte im Datenasset zugeordnet sind Wenn der Spalte keine Datenklasse zugeordnet ist, wird in der Tabelle U angezeigt. |
DistinctValue | Der tatsächliche Datenwert in der Spalte. Die maximale Länge in Byte beträgt 4096 bzw. 2.048 Zeichen bei Unicode. Alle Werte werden unabhängig vom tatsächlichen Datentyp als Zeichenketten gespeichert. Wenn Sie also die Werte im detaillierten Spaltenprofil sortieren, wird die Stringsortierung angewendet. |
FrequencyCount | Gibt an, wie oft dieser Wert auftritt |
GeneralFormat | Das Format, das das Zeichenmuster eines Datenwerts darstellt. Jedes alphabetische Zeichen wird je nach Großschreibung des Zeichens durch einen Groß-oder Kleinbuchstaben A dargestellt. Jedes numerische Zeichen wird durch die Zahl 9 dargestellt. Leerzeichen und Sonderzeichen werden so angezeigt, wie sie angezeigt werden. |
InferredDataType | Der abgeleitete Datentyp, z. B. Ganzzahl, Zeichenfolge oder Datum. |
ProjectId | Die ID des Projekts, in dem die Analyse ausgeführt wurde |
PropertyLength | Die Länge eines Zeichenfolgefelds |
PropertyPrecision | Die Gesamtlänge eines numerischen Felds. |
PropertyScale | Die Nachkommastellen eines numerischen Werts stellen die Gesamtlänge der Dezimalkomponente eines numerischen Felds dar. |
Diese zusätzlichen Spalten sind für die interne Verwendung reserviert und können ohne vorherige Ankündigung geändert werden:
- Klasse
- ChangedByUser
- DataClassificationStatusFlag
- DomainPattern
- DomainValueFlag
- DomainValueFlagDate
- DomainValueFlaggedByUser
- FieldNumber
- FormatFlag
- FormatFlagDate
- FormatFlaggedByUser
- InvalidReasonCode
- ODBCTyp
- SourceOfDistinctValue
- TypeCode
- TypeOfDomainValue
Weitere Informationen
- Erweiterte Datenprofilerstellung
- Profilinformationen auf Spaltenebene
- IBM Knowledge Catalog API: Zeilen aus der Häufigkeitsverteilung filtern
Übergeordnetes Thema: Ergebnisse der Metadatenaufbereitung überprüfen