AI의 학습 데이터 투명성 부족으로 인한 리스크

영어 버전 문서로 돌아가기

마지막 업데이트 날짜: 2024년 12월 12일

AI의 학습 데이터 투명성 부족으로 인한 리스크

입력과 연관된 위험

훈련 및 튜닝 단계

투명도

생성 AI에 의해 증폭됨

설명

모델의 데이터를 수집하고, 큐화하고, 모델을 훈련하는 데 사용하는 방법에 대한 정확한 문서가 없으면 데이터와 관련하여 모델의 동작을 만족스럽게 설명하기 어려울 수 있습니다.

학습 데이터 투명성 부족이 파운데이션 모델에 문제가 되는 이유는 무엇인가요?

데이터 문서가 부족하면 데이터와 관련된 위험을 평가할 수 있는 능력이 제한됩니다. 트레이닝 데이터에 액세스하는 것만으로는 충분하지 않습니다. 데이터가 어떻게 정리, 수정 또는 생성되었는지 기록하지 않으면 모델 동작을 이해하고 수정하기가 더 어렵습니다. 데이터 투명성이 부족하면 이러한 문서가 없으면 새로운 용도에 대한 데이터 대표성을 판단하기 어렵기 때문에 모델 재사용에도 영향을 미칩니다.

예

데이터 및 모델 메타데이터 유출

OpenAI‘s 기술 보고서는 데이터와 모델 메타데이터 공개에 대한 이분법을 보여주는 예입니다. 많은 모델 개발자들이 소비자의 투명성을 가능하게 하는 데 있어 가치를 보고 있지만, 공개는 실제적인 안전 문제를 제기하며 모델을 오용하는 능력을 증가시킬 수 있습니다. GPT-4 기술 보고서에서 저자는 "경쟁 환경과 GPT-4과 같은 대규모 모델의 안전성을 모두 고려하여 이 보고서에는 아키텍처(모델 크기 포함), 하드웨어, 학습 컴퓨팅, 데이터 세트 구성, 학습 방법 등에 대한 자세한 내용은 포함되지 않았습니다."라고 명시하고 있습니다

출처:

OpenAI, 2023년 3월

상위 주제: AI 위험 지도책

많은 기초 모델의 위험을 설명하는 데 도움이 되도록 언론에서 다루는 예제를 제공합니다. 언론이 다루고 있는 이러한 많은 사건들은 여전히 진화하고 있거나 해결되었으며, 이를 참조하는 것은 독자가 잠재적인 위험을 이해하고 완화를 향해 노력하는 데 도움이 될 수 있다. 이 예제를 강조표시하는 것은 설명을 위한 것입니다.