Descrizione
Senza una documentazione accurata su come i dati di un modello sono stati raccolti, curati e utilizzati per addestrare un modello, potrebbe essere più difficile spiegare in modo soddisfacente il comportamento del modello rispetto ai dati.
Perché la mancanza di trasparenza dei dati di formazione è un problema per i modelli di fondazione?
La mancanza di documentazione sui dati limita la capacità di valutare i rischi associati ai dati stessi. Avere accesso ai dati di addestramento non è sufficiente. Senza registrare il modo in cui i dati sono stati puliti, modificati o generati, il comportamento del modello è più difficile da comprendere e da correggere. La mancanza di trasparenza dei dati influisce anche sul riutilizzo dei modelli, in quanto è difficile determinare la rappresentatività dei dati per il nuovo uso senza tale documentazione.
Divulgazione metadati di dati e modelli
OpenAI‘s è un esempio della dicotomia tra divulgazione dei dati e metadati del modello. Mentre molti sviluppatori di modelli vedono il valore nell'abilitare la trasparenza per i consumatori, la divulgazione pone reali problemi di sicurezza e potrebbe aumentare la possibilità di utilizzare in modo improprio i modelli. Nella relazione tecnica GPT-4, gli autori dichiarano: "Dato il panorama competitivo e le implicazioni per la sicurezza di modelli su larga scala come GPT-4, questa relazione non contiene ulteriori dettagli sull'architettura (comprese le dimensioni del modello), sull'hardware, sul calcolo dell'addestramento, sulla costruzione dell'insieme di dati, sul metodo di addestramento o simili"
Argomento principale: Atlas rischio AI
Forniamo esempi trattati dalla stampa per aiutare a spiegare molti dei rischi dei modelli di fondazione. Molti di questi eventi trattati dalla stampa sono ancora in evoluzione o sono stati risolti, e il loro riferimento può aiutare il lettore a comprendere i potenziali rischi e a lavorare per mitigare. L'evidenziazione di questi esempi è solo a scopo illustrativo.