영어 버전 문서로 돌아가기AI에 대한 탈옥 위험
AI에 대한 탈옥 위험
마지막 업데이트 날짜: 2024년 12월 12일
설명
탈옥 공격은 모델에 설정된 가드레일을 뚫고 제한된 작업을 수행하기 위해 시도합니다.
탈옥이 재단 모델에 대한 우려를 낳는 이유는 무엇인가?
탈옥 공격을 사용하여 모델 동작을 변경하고 공격자에게 이점을 제공할 수 있습니다. 올바르게 제어되지 않으면 비즈니스 엔티티는 벌금, 평판 손상 및 기타 법적 결과에 직면할 수 있습니다.
예
LLM 가드레일 우회
카네기 멜론 대학, AI 안전 센터, 그리고 인공지능을 위한 보쉬 센터의 연구원들이 인용한 한 연구에서는, 이 연구자들이 모델들을 속여서 편향되고, 거짓이며, 그렇지 않으면 독성이 있는 정보를 생성하도록 만들 수 있는 간단한 신속한 부록을 발견했다고 주장하고 있다. 연구진들은 그들이 이러한 가드레일을 더 자동화된 방법으로 피할 수 있다는 것을 보여주었습니다. 이러한 공격은 ChatGPT, Google Bard, Meta의 LLaMA, Anthropic의 Claude 등을 포함한 광범위한 오픈 소스 제품에서 효과적인 것으로 나타났습니다.
출처:
상위 주제: AI 위험 지도책
많은 기초 모델의 위험을 설명하는 데 도움이 되도록 언론에서 다루는 예제를 제공합니다. 언론이 다루고 있는 이러한 많은 사건들은 여전히 진화하고 있거나 해결되었으며, 이를 참조하는 것은 독자가 잠재적인 위험을 이해하고 완화를 향해 노력하는 데 도움이 될 수 있다. 이 예제를 강조표시하는 것은 설명을 위한 것입니다.