Google BigQuery-Verbindung
Sie können ein Verbindungsasset für den Zugriff auf Ihre Daten in Google BigQuery erstellen.
Bei Google BigQuery handelt es sich um ein vollständig verwaltetes, serverloses Data-Warehouse, das eine skalierbare Analyse über Petabyte an Daten ermöglicht.
Verbindung zu Google BigQuery erstellen
Wählen Sie zum Erstellen des Verbindungsassets eine Authentifizierungsmethode aus. Zu den Auswahlmöglichkeiten gehören eine Authentifizierung mit oder ohne Workload-Identitätsföderation.
Ohne Einbindung der Workload-ID
- Kontoschlüssel (vollständiges JSON-Snippet): Der Inhalt der JSON-Datei des Google -Servicekontoschlüssels.
- Client-ID, geheimer Clientschlüssel, Zugriffstoken und Aktualisierungstoken.
Mit Workload-Identitätsföderation
Sie verwenden einen externen Identitätsprovider (IdP) für die Authentifizierung. Ein externer Identitätsprovider verwendet Identity and Access Management (IAM) anstelle von Servicekontoschlüsseln. IAM bietet mehr Sicherheit und zentralisiertes Management. Sie können die Workload-Identitätsverbund-Authentifizierung mit einem Zugriffstoken oder mit einem Token URL verwenden.
Sie können eine Google BigQuery für den Workload-Identitätsverbund mit einem beliebigen Identitätsanbieter konfigurieren, der die OpenID Connect (OIDC)-Spezifikation erfüllt und die Google Cloud einhält, die in Bereiten Sie Ihren externen IdP vor beschrieben sind. Zu den Anforderungen gehören:
- Der Identitätsprovider muss OpenID Connect 1.0unterstützen.
- Die OIDC-Metadaten und JWKS-Endpunkte des Identitätsproviders müssen über das Internet öffentlich zugänglich sein. Google Cloud verwendet diese Endpunkte zum Download des Schlüsselsatzes Ihres Identitätsproviders und verwendet diesen Schlüsselsatz zum Validieren von Tokens.
- Der Identitätsprovider ist so konfiguriert, dass Ihre Workload ID-Tokens abrufen kann, die die folgenden Kriterien erfüllen:
- Tokens werden mit dem Algorithmus RS256 oder ES256 signiert.
- Tokens enthalten einen aud-Anspruch.
Beispiele für die Konfigurationsschritte des Workload-Identitätsverbunds für Amazon Web ServicesAWS) und Microsoft Azure finden Sie unter .
Workload Identity Federation mit Zugriffstokenverbindungsdetails
Zugriffstoken: Ein Zugriffstoken vom Identitätsprovider für die Verbindung zu BigQuery.
Zielgruppe des Sicherheitstokenservice: Die Zielgruppe des Sicherheitstokenservice, die die Projekt-ID, die Pool-ID und die Provider-ID enthält Verwenden Sie das folgende Format:
//iam.googleapis.com/projects/PROJECT_NUMBER/locations/global/workloadIdentityPools/POOL_ID/providers/PROVIDER_ID
Weitere Informationen finden Sie unter Authentifizieren eines Workloads mithilfe der REST-API.
Service account email: Die E-Mail-Adresse des Google -Servicekontos, dessen Identität angenommen werden soll. Weitere Informationen finden Sie unter Erstellen eines Dienstkontos für den externen Workload.
Lebensdauer des Servicekontotokens (optional): Die Lebensdauer des Servicekontozugriffstokens in Sekunden. Die Standardlebensdauer eines Servicekontozugriffstokens beträgt eine Stunde. Weitere Informationen finden Sie unter Anmeldeinformationen aus URL -Quellen.
Tokenformat: Text oder JSON mit dem Tokenfeldnamen für den Namen des Felds in der JSON-Antwort, das das Token enthält
Tokenfeldname: Der Name des Felds in der JSON-Antwort, das das Token enthält Dieses Feld wird nur angezeigt, wenn das Tokenformat JSON ist.
Tokentyp: AWS Signature Version 4-Anforderung, Google OAuth 2.0 -Zugriffstoken, ID-Token, JSON Web Token (JWT) oder SAML 2.0.
Workload Identity Federation mit Token URL Verbindungsdetails
Zielgruppe des Sicherheitstokenservice: Die Zielgruppe des Sicherheitstokenservice, die die Projekt-ID, die Pool-ID und die Provider-ID enthält Verwenden Sie das folgende Format:
//iam.googleapis.com/projects/PROJECT_NUMBER/locations/global/workloadIdentityPools/POOL_ID/providers/PROVIDER_ID
Weitere Informationen finden Sie unter Authentifizieren eines Workloads mit der REST-API.
Service account email: Die E-Mail-Adresse des Google -Servicekontos, dessen Identität angenommen werden soll. Weitere Informationen finden Sie unter Erstellen eines Dienstkontos für den externen Workload.
Lebensdauer des Servicekontotokens (optional): Die Lebensdauer des Servicekontozugriffstokens in Sekunden. Die Standardlebensdauer eines Servicekontozugriffstokens beträgt eine Stunde. Weitere Informationen finden Sie unter Anmeldeinformationen aus URL -Quellen.
Token URL : Die URL, um ein Token abzurufen.
HTTP method : HTTP Methode, die für die Token-Anfrage URL zu verwenden ist: GET, POST oder PUT.
Körper der Anfrage (für POST- oder PUT-Methoden): Der Text der HTTP Anfrage zum Abrufen eines Tokens.
HTTP headers : HTTP Header für die Token-Anfrage URL in JSON oder als JSON-Body. Verwenden Sie das Format:
."Key1"="Value1","Key2"="Value2"
Tokenformat: Text oder JSON mit dem Tokenfeldnamen für den Namen des Felds in der JSON-Antwort, das das Token enthält
Tokenfeldname: Der Name des Felds in der JSON-Antwort, das das Token enthält Dieses Feld wird nur angezeigt, wenn das Tokenformat JSON ist.
Tokentyp: AWS Signature Version 4-Anforderung, Google OAuth 2.0 -Zugriffstoken, ID-Token, JSON Web Token (JWT) oder SAML 2.0.
Server-Proxy (optional)
Wählen Sie Server-Proxy, um auf die Datenquelle Google BigQuery über einen HTTPS Proxy-Server zuzugreifen. Je nach Konfiguration kann ein Proxy-Server Lastausgleich, erhöhte Sicherheit und Datenschutz bereitstellen. Die Proxy-Server-Einstellungen sind unabhängig von den Authentifizierungsnachweisen und der Auswahl persönlicher oder gemeinsam genutzter Berechtigungsnachweise.
- Proxy-Host : Der Hostname oder die IP-Adresse des HTTPS Proxy-Servers. Beispiel:
oderproxy.example.com
.192.0.2.0
- Proxy-Anschluss : Die Portnummer für die Verbindung mit dem Proxyserver HTTPS. Beispiel:
oder8080
.8443
- Proxy username und Proxy password.
Andere Eigenschaften
Projekt-ID (optional) Die ID des Google -Projekts.
JSON-Ausgabezeichenfolgeformat: JSON-Zeichenfolgeformat für Ausgabewerte, die komplexe Datentypen sind (z. B. verschachtelt oder wiederholt).
- Pretty: Werte werden formatiert, bevor sie an die Ausgabe gesendet werden. Verwenden Sie diese Option, um einige Zeilen visuell zu lesen.
- Raw:(Standard) Keine Formatierung. Verwenden Sie diese Option für die beste Leistung.
Metadatenerkennung: Die Einstellung bestimmt, ob Kommentare zu Spalten (Anmerkungen) und Aliasnamen für Schemaobjekte wie Tabellen oder Ansichten (Synonyme) abgerufen werden, wenn Assets über diese Verbindung hinzugefügt werden.
Berechtigungen
Für die Verbindung zu Google BigQuery sind die folgenden BigQuery-Berechtigungen erforderlich:
bigquery.job.create
bigquery.tables.get
bigquery.tables.getData
Es gibt drei Möglichkeiten, diese Berechtigungen zu erhalten:
- Verwenden Sie die vordefinierte BigQuery Cloud-IAM-Rolle
, die diese Berechtigungen enthält.bigquery.admin
- Verwenden Sie eine Kombination aus zwei Rollen (eine aus jeder Spalte in der folgenden Tabelle) oder
- Erstellen Sie eine angepasste Rolle. Siehe Benutzerdefinierte Rollen erstellen und verwalten.
Erste Rolle | Zweite Rolle |
---|---|
|
|
|
|
|
Weitere Informationen zu Berechtigungen und Rollen in Google BigQuery finden Sie unter Vordefinierte Rollen und Berechtigungen.
Je nach Position auf der Plattform geeignete Methode zum Erstellen einer Verbindung auswählen
- In einem Projekt
- Klicken Sie auf Assets > Neues Asset > Verbindung zu einer Datenquelle herstellen. Weitere Informationen finden Sie unter Verbindung zu einem Projekt hinzufügen.
- In einem Katalog
- Klicken Sie auf Zu Katalog hinzufügen > Verbindung. Weitere Informationen finden Sie unter Verbindungsasset zu einem Katalog hinzufügen.
- In einem Bereitstellungsbereich
- Klicken Sie auf Assets importieren > Datenzugriff > Verbindung. Siehe Datenassets zu einem Bereitstellungsbereich hinzufügen.
- Im Katalog der Plattformressourcen
- Klicken Sie auf Neue Verbindung. Weitere Informationen finden Sie unter Hinzufügen von Plattformverbindungen.
Nächster Schritt: Fügen Sie Datenassets aus der Verbindung hinzu
Weitere Informationen finden Sie unter Daten aus einer Verbindung in einem Projekt hinzufügen.
Weitere Informationen finden Sie unter Daten aus einer Verbindung in einem Katalog hinzufügen.
Google BigQuery-Konfiguration
Konfigurieren des Imports von Abstammungsmetadaten für Google BigQuery
Wenn Sie einen Metadatenimport für die Verbindung Google BigQuery erstellen, können Sie Optionen festlegen, die für diese Datenquelle spezifisch sind, und den Umfang der Daten definieren, für die die Abstammung generiert wird. Einzelheiten zum Metadatenimport finden Sie unter Entwerfen von Metadatenimporten.
Führen Sie die folgenden Schritte aus, um Metadaten zur Abstammung für Google BigQuery zu importieren:
- Erstellen Sie eine Datenquellendefinition. Wählen Sie Google BigQuery als Datenquellentyp.
- Erstellen Sie eine Verbindung zur Datenquelle in einem Projekt.
- Erstellen Sie einen Metadatenimport. Erfahren Sie mehr über die Optionen, die für die Datenquelle Google BigQuery spezifisch sind:
- Wenn Sie einen Bereich definieren, können Sie die gesamte Datenquelle analysieren oder die Optionen zum Einschließen und Ausschließen verwenden, um genau die Datensätze und Projekte zu definieren, die analysiert werden sollen. Siehe Einschluss- und Ausschlusslisten.
- Optional können Sie externe Eingaben in Form einer.zip-Datei bereitstellen. Sie fügen diese Datei im Feld Eingaben aus Datei hinzufügen hinzu. Die Datei muss eine unterstützte Struktur haben. Siehe Externe Eingänge.
Einschluss- und Ausschlusslisten
Sie können Assets bis zur Datensatzebene ein- oder ausschließen. Stellen Sie Projekte und Datensätze im Format "Projekt/Datensatz" bereit. Jeder Teil wird als regulärer Ausdruck ausgewertet. Assets, die der Datenquelle später hinzugefügt werden, werden ebenfalls eingeschlossen oder ausgeschlossen, wenn sie den in den Listen angegebenen Bedingungen entsprechen. Beispielwerte:
: alle Datensätze inmyProject/
,myProject
: alle Datensätze inmyProject2/.*
,myProject2
:myProject3/myDataset1
vonmyDataset1
,myProject3
: jeder Datensatz in meinemmyProject4/myDataset[1-5]
mit einem Namen, der mitmyProject4
beginnt und mit einer Ziffer zwischen 1 und 5 endetmyDataset
Externe Eingaben
Wenn Sie externe Google BigQuery SQL- oder Jobskripte verwenden, können Sie diese in einer.zip-Datei als externe Eingabe hinzufügen. Sie können die Struktur einer ZIP-Datei in Unterordnern organisieren, die Projekte und Datasets darstellen. Nach dem Scannen der Scripts werden sie den jeweiligen Projekten und Datasets im ausgewählten Katalog oder Projekt hinzugefügt. Die.zip-Datei kann die folgende Struktur haben:
<project_id> <dataset_name> <script_name.sql> <project_id> <script_name.sql> jobs <job_name.json> <script_name.sql> replace.csv connectionsConfiguration.prm
Die Datei
enthält Platzhalter für die Skripte, die in der.zip-Datei hinzugefügt werden. Weitere Informationen über das Format finden Sie unter Ersetzung von Platzhaltern.replace.csv
Die Datei
enthält Definitionen von Datenbankverbindungsressourcen, die in Verbundabfragen verwendet werden. Die Datei kann wie folgt aufgebaut sein:connectionsConfiguration.prm
[{Shortcut_Name}] Type={connection_type} Connection_String={connection_string} Server_Name={server_name} Database_Name={database_name} Schema_Name={schema_name} User_Name={user_name}
Weitere Informationen
Übergeordnetes Thema: Unterstützte Verbindungen