Connexion Google BigQuery

Dernière mise à jour : 05 avr. 2025

Pour accéder à vos données dans Google BigQuery, créez un actif de connexion pour celui-ci.

Google BigQuery est un entrepôt de données entièrement géré et sans serveur qui permet une analyse évolutive sur des pétaoctets de données.

Créer une connexion à Google BigQuery

Pour créer l'actif de connexion, choisissez une méthode d'authentification. Les options incluent une authentification avec ou sans fédération d'identité de charge de travail.

Sans fédération d'identité de charge de travail

Clé de compte (fragment JSON complet): contenu du fichier JSON de clé de compte de service Google
ID client, secret client, jeton d'accès et jeton de régénération

Avec la fédération d'identité de charge de travail
Vous utilisez un fournisseur d'identité externe (IdP) pour l'authentification. Un fournisseur d'identité externe utilise IAM (Identity and Access Management) à la place des clés de compte de service. IAM offre une sécurité accrue et une gestion centralisée. Vous pouvez utiliser l'authentification par fédération d'identité de la charge de travail avec un jeton d'accès ou avec un jeton URL.

Vous pouvez configurer une connexion Google BigQuery pour la fédération d'identité de charge de travail avec n'importe quel fournisseur d'identité conforme à la spécification OpenID Connect (OIDC) et répondant aux exigences de Google Cloud décrites dans la section Préparer votre IdP externe. Les exigences sont les suivantes:

Le fournisseur d'identité doit prendre en charge OpenID Connect 1.0.
Les métadonnées OIDC et les noeuds finaux JWKS du fournisseur d'identité doivent être accessibles au public sur Internet. Google Cloud utilise ces noeuds finaux pour télécharger l'ensemble de clés de votre fournisseur d'identité et utilise cet ensemble de clés pour valider les jetons.
Le fournisseur d'identité est configuré de sorte que votre charge de travail puisse obtenir des jetons d'ID qui répondent aux critères suivants:
- Les jetons sont signés avec l'algorithme RS256 ou ES256 .
- Les jetons contiennent une réclamation aud.

Pour des exemples d'étapes de configuration de la fédération d'identité de la charge de travail pour Amazon Web ServicesAWS et Microsoft Azure, voir .

Fédération d'identité de charge de travail avec détails de connexion de jeton d'accès

Jeton d'accès: jeton d'accès du fournisseur d'identité permettant de se connecter à BigQuery.

Public du service de jeton de sécurité: Public du service de jeton de sécurité qui contient l'ID de projet, l'ID de pool et l'ID de fournisseur. Utilisez le format suivant :

//iam.googleapis.com/projects/PROJECT_NUMBER/locations/global/workloadIdentityPools/POOL_ID/providers/PROVIDER_ID

Pour plus d'informations, voir Authentifier une charge de travail à l'aide de l'API REST.

Adresse électronique du compte de service: adresse électronique du compte de service Google dont l'identité doit être usurpée. Pour plus d'informations, voir Créer un compte de service pour la charge de travail externe.
Durée de vie du jeton de compte de service (facultatif): durée de vie en secondes du jeton d'accès du compte de service. La durée de vie par défaut d'un jeton d'accès de compte de service est d'une heure. Pour plus d'informations, voir URL.
Format de jeton: texte ou JSON avec le nom de zone de jeton pour le nom de la zone dans la réponse JSON qui contient le jeton.
Token field name: nom de la zone dans la réponse JSON qui contient le jeton. Cette zone s'affiche uniquement lorsque le Format de jeton est JSON.
Type de jeton: demande AWS Signature Version 4, jeton d'accès Google OAuth 2.0 , jeton d'ID, jeton Web JSON (JWT) ou SAML 2.0.

Workload Identity Federation avec jeton URL détails de connexion

Public du service de jeton de sécurité: Public du service de jeton de sécurité qui contient l'ID de projet, l'ID de pool et l'ID de fournisseur. Utilisez le format suivant :

//iam.googleapis.com/projects/PROJECT_NUMBER/locations/global/workloadIdentityPools/POOL_ID/providers/PROVIDER_ID

Pour plus d'informations, voir Authentifier une charge de travail à l'aide de l'API REST.

Adresse électronique du compte de service: adresse électronique du compte de service Google dont l'identité doit être usurpée. Pour plus d'informations, voir Créer un compte de service pour la charge de travail externe.
Durée de vie du jeton de compte de service (facultatif): durée de vie en secondes du jeton d'accès du compte de service. La durée de vie par défaut d'un jeton d'accès de compte de service est d'une heure. Pour plus d'informations, voir URL.
Token URL : Le URL pour récupérer un token.
HTTP method : HTTP méthode à utiliser pour la demande de jeton URL : GET, POST ou PUT.
Corps de la demande (pour les méthodes POST ou PUT) : Le corps de la requête HTTP pour récupérer un jeton.
HTTP headers : HTTP headers for the token URL request in JSON or as a JSON body. Utilisez le format: "Key1"="Value1","Key2"="Value2".
Format de jeton: texte ou JSON avec le nom de zone de jeton pour le nom de la zone dans la réponse JSON qui contient le jeton.
Token field name: nom de la zone dans la réponse JSON qui contient le jeton. Cette zone s'affiche uniquement lorsque le Format de jeton est JSON.
Type de jeton: demande AWS Signature Version 4, jeton d'accès Google OAuth 2.0 , jeton d'ID, jeton Web JSON (JWT) ou SAML 2.0.

Proxy serveur (facultatif)

Sélectionnez Proxy serveur pour accéder à la source de données Google BigQuery via un serveur proxy HTTPS. En fonction de sa configuration, un serveur proxy peut fournir un équilibrage de charge, une sécurité et une confidentialité accrues. Les paramètres du serveur proxy sont indépendants des données d'authentification et de la sélection des données d'identification personnelles ou partagées.

Proxy host : Le nom d'hôte ou l'adresse IP du serveur proxy HTTPS. Par exemple, proxy.example.com ou 192.0.2.0.
Proxy port : Le numéro de port pour se connecter au serveur proxy HTTPS. Par exemple, 8080 ou 8443.
Nom d'utilisateur du proxy et Mot de passe du proxy.

Autres propriétés

ID projet (facultatif) ID du projet Google .

Format de chaîne JSON de sortie: format de chaîne JSON pour les valeurs de sortie qui sont des types de données complexes (par exemple, imbriquées ou répétées).

Jolie: les valeurs sont formatées avant d'être envoyées en sortie. Utilisez cette option pour lire visuellement quelques lignes.
Brut: (valeur par défaut) Pas de formatage. Utilisez cette option pour obtenir les meilleures performances.

Reconnaissance des métadonnées: ce paramètre détermine si les commentaires sur les colonnes (remarques) et les alias des objets de schéma tels que les tables ou les vues (synonymes) sont extraits lorsque des actifs sont ajoutés à l'aide de cette connexion.

Droits

La connexion à Google BigQuery requiert les droits BigQuery suivants :

bigquery.job.create
bigquery.tables.get
bigquery.tables.getData

Utilisez l'une des trois méthodes suivantes pour obtenir ces droits :

Utilisez le rôle prédéfini BigQuery Cloud IAM bigquery.admin, qui inclut ces droits d'accès.
Utilisez une combinaison de deux rôles, l'un de chaque colonne du tableau suivant ; ou
Créer un rôle personnalisé. Voir Créer et gérer des rôles personnalisés.

Premier rôle	Deuxième rôle
`bigquery.dataEditor`	`bigquery.jobUser`
`bigquery.dataOwner`	`bigquery.user`
`bigquery.dataViewer`

Pour plus d'informations sur les autorisations et les rôles dans Google BigQuery, voir Rôles et autorisations prédéfinis.

Choisissez la méthode de création d'une connexion basée sur l'emplacement dans la plateforme.

Dans un projet: Cliquez sur Actifs > Nouvel actif > Connexion à une source de données. Voir Ajout d'une connexion à un projet.
Dans un catalogue: Cliquez sur Ajouter au catalogue > Connexion. Voir Ajout d'un actif de connexion à un catalogue.
Dans un espace de déploiement: Cliquez sur Importer les actifs > Accès aux données > Connexion. Voir Ajout d'actifs de données à un espace de déploiement.
Dans le catalogue d'actifs de la plateforme: Cliquez sur Nouvelle connexion. Voir Ajout de connexions de plateforme.

Etape suivante : ajout d'actifs de données à partir de la connexion

Configuration de Google BigQuery

Démarrage rapide à l'aide de la console de cloud

Configuration de l'importation de métadonnées de lignage pour Google BigQuery

Lorsque vous créez une importation de métadonnées pour la connexion Google BigQuery, vous pouvez définir des options spécifiques à cette source de données et définir l'étendue des données pour lesquelles le lignage est généré. Pour plus d'informations sur l'importation de métadonnées, voir Conception des importations de métadonnées.

Pour importer des métadonnées de lignage pour Google BigQuery, procédez comme suit :

Créer une définition de la source de données. Sélectionner Google BigQuery comme type de source de données.
Créer une connexion à la source de données dans un projet.
Créer une importation de métadonnées. En savoir plus sur les options spécifiques à la source de données Google BigQuery :
- Lorsque vous définissez un périmètre, vous pouvez analyser l'ensemble de la source de données ou utiliser les options d'inclusion et d'exclusion pour définir les ensembles de données et les projets exacts que vous souhaitez analyser. Voir Listes d'inclusion et d'exclusion.
- En option, vous pouvez fournir des données externes sous la forme d'un fichier.zip. Vous ajoutez ce fichier dans le champ Ajouter des entrées à partir d'un fichier. Le fichier doit avoir une structure supportée. Voir Entrées externes.

Listes d'inclusion et d'exclusion

Vous pouvez inclure ou exclure des actifs jusqu'au niveau de l'ensemble de données. Fournir les projets et les ensembles de données dans le format projet/ensemble de données. Chaque partie est évaluée comme une expression régulière. Les actifs ajoutés ultérieurement dans la source de données seront également inclus ou exclus s'ils répondent aux conditions spécifiées dans les listes. Exemples de valeurs :

myProject/: tous les ensembles de données dans myProject,
myProject2/.*: tous les ensembles de données dans myProject2,
myProject3/myDataset1: myDataset1 from myProject3,
myProject4/myDataset[1-5]: tout ensemble de données de mon site myProject4 dont le nom commence par myDataset et se termine par un chiffre compris entre 1 et 5

Entrées externes

Si vous utilisez des scripts SQL ou des scripts de travail externes Google BigQuery, vous pouvez les ajouter dans un fichier.zip en tant qu'entrée externe. Vous pouvez organiser la structure d'un fichier .zip en sous-dossiers qui représentent des projets et des ensembles de données. Une fois les scripts analysés, ils sont ajoutés aux projets et ensembles de données respectifs dans le catalogue ou le projet sélectionné. Le fichier.zip peut avoir la structure suivante :

<project_id>
   <dataset_name>
      <script_name.sql>
<project_id>
        <script_name.sql> 
jobs
       <job_name.json>      
<script_name.sql>
replace.csv
connectionsConfiguration.prm

Le fichier replace.csv contient des remplaçants pour les scripts qui sont ajoutés dans le fichier.zip. Pour plus d'informations sur le format, voir Remplacements de caractères génériques.

Le fichier connectionsConfiguration.prm contient les définitions des ressources de connexion à la base de données utilisées dans les requêtes fédérées. Le fichier peut avoir la structure suivante :

[{Shortcut_Name}] Type={connection_type}
Connection_String={connection_string}
Server_Name={server_name}
Database_Name={database_name}
Schema_Name={schema_name}
User_Name={user_name}