AI에 대한 데이터 중독 위험
설명
공격자 또는 악의적인 내부자가 의도적으로 손상되었거나 허위, 오해의 소지가 있거나 잘못된 샘플을 학습 또는 미세 조정 데이터 세트에 주입하는 공격 유형입니다.
데이터 중독이 파운데이션 모델의 문제가 되는 이유는 무엇입니까?
중독 데이터는 모델을 악성 데이터 패턴에 민감하게 만들고 상대의 원하는 출력을 생성할 수 있습니다. 이는 적이 자신의 이익을 위해 모델 동작을 강제 실행할 수 있는 보안 위험을 생성할 수 있습니다.
데이터의 저자원 중독
소스 기사에 따르면, 한 연구 그룹은 매우 제한된 리소스로 누구나 일반적으로 AI 학습을 위해 수집되는 소수의 웹 페이지(예: Wikipedia 페이지)에 대규모 언어 모델이 오답을 생성할 수 있을 정도로 악성 데이터를 추가할 수 있다는 사실을 발견했습니다.
이미지 수정 도구
소스 기사에 따르면, 연구원들은 컴퓨터의 시각을 손상시키지만 사람에게는 보이지 않는 방식으로 이미지를 수정하는 '나이트셰이드'라는 도구를 개발했습니다. 이러한 '독이 든' 수정된 이미지를 AI 모델 학습에 사용하면 모델이 예측할 수 없는 의도하지 않은 결과를 생성할 수 있습니다. 이 도구는 무단 이미지 스크래핑으로부터 지적 재산을 보호하기 위한 메커니즘으로 만들어졌지만, 사용자가 이 도구를 악용하여 의도적으로 '독이 든' 이미지를 업로드할 수 있다는 점도 강조하고 있습니다.
상위 주제: AI 위험 지도책
재단 모델의 여러 위험에 대한 설명을 돕기 위해 언론에서 다룬 사례를 제공합니다. 언론에서 다루는 이러한 사건 중 상당수는 아직 진행 중이거나 해결된 상태이므로 이를 참고하면 잠재적 위험을 이해하고 완화 조치를 취하는 데 도움이 될 수 있습니다. 이러한 예시는 예시를 보여주기 위한 것일 뿐입니다.