Rubrique traduite automatiquement Vous pouvez passer à la version anglaise

Pour obtenir la version la plus précise et la plus à jour de cette documentation, voir la version anglaise (originale). IBM n'est pas responsable des dommages ou pertes résultant de l'utilisation du contenu traduit automatiquement (machine).

Manque de données de formation : risque de transparence pour l'IA

Dernière mise à jour : 10 févr. 2025

Transparence

Risques liés aux données de formation

Amplifié par l'IA générative

Descriptif

Sans une documentation précise sur la façon dont les données d'un modèle ont été collectées, conservées et utilisées pour entraîner un modèle, il peut être plus difficile d'expliquer de manière satisfaisante le comportement du modèle par rapport aux données.

Pourquoi le manque de transparence des données de formation est-il un problème pour les modèles de fondation ?

L'absence de documentation sur les données limite la capacité à évaluer les risques associés aux données. Il ne suffit pas d'avoir accès aux données de formation. Sans enregistrement de la manière dont les données ont été nettoyées, modifiées ou générées, le comportement du modèle est plus difficile à comprendre et à corriger. Le manque de transparence des données a également un impact sur la réutilisation des modèles, car il est difficile de déterminer la représentativité des données pour une nouvelle utilisation sans cette documentation.

Image de fond pour les risques associés aux données de formation

Exemple

Divulgation des métadonnées de données et de modèles

OpenAI‘s est un exemple de la dichotomie entre la divulgation des données et les métadonnées du modèle. Alors que de nombreux développeurs de modèles voient de l'intérêt à favoriser la transparence pour les consommateurs, la divulgation pose de réels problèmes de sécurité et pourrait augmenter la capacité d'utiliser à mauvais escient les modèles. Dans le rapport technique GPT-4, les auteurs déclarent : "Compte tenu du paysage concurrentiel et des implications pour la sécurité des modèles à grande échelle comme GPT-4, ce rapport ne contient pas d'autres détails sur l'architecture (y compris la taille du modèle), le matériel, le calcul d'entraînement, la construction d'ensembles de données, la méthode d'entraînement, ou autres."

Sources :

OpenAI, Mars 2023

Rubrique parent: Atlas des risques liés à l'IA

Nous fournissons des exemples couverts par la presse pour vous aider à expliquer les risques de nombreux modèles de base. Un grand nombre de ces événements couverts par la presse sont en constante évolution ou ont été résolus, et leur référencement peut aider le lecteur à comprendre les risques potentiels et à s'orienter vers des mesures d'atténuation. La mise en évidence de ces exemples est fournie à des fins d'illustration uniquement.

La rubrique a-t-elle été utile ?

0/1000

DescriptifCopy link to section

Pourquoi le manque de transparence des données de formation est-il un problème pour les modèles de fondation ?Copy link to section

Risques connexesCopy link to section

Descriptif

Pourquoi le manque de transparence des données de formation est-il un problème pour les modèles de fondation ?

Risques connexes