0 / 0
영어 버전 문서로 돌아가기
AI에 대한 탈옥 위험
마지막 업데이트 날짜: 2024년 12월 12일
AI에 대한 탈옥 위험
다중 범주 여러 범주의 위험을 나타내는 아이콘입니다.
입력과 연관된 위험
추론
다중 범주
제너레이티브 AI를 처음 접하는 분

설명

탈옥 공격은 모델에 설정된 가드레일을 뚫고 제한된 작업을 수행하기 위해 시도합니다.

탈옥이 재단 모델에 대한 우려를 낳는 이유는 무엇인가?

탈옥 공격을 사용하여 모델 동작을 변경하고 공격자에게 이점을 제공할 수 있습니다. 올바르게 제어되지 않으면 비즈니스 엔티티는 벌금, 평판 손상 및 기타 법적 결과에 직면할 수 있습니다.

입력과 연관된 위험의 배경 이미지

LLM 가드레일 우회

카네기 멜론 대학, AI 안전 센터, 그리고 인공지능을 위한 보쉬 센터의 연구원들이 인용한 한 연구에서는, 이 연구자들이 모델들을 속여서 편향되고, 거짓이며, 그렇지 않으면 독성이 있는 정보를 생성하도록 만들 수 있는 간단한 신속한 부록을 발견했다고 주장하고 있다. 연구진들은 그들이 이러한 가드레일을 더 자동화된 방법으로 피할 수 있다는 것을 보여주었습니다. 이러한 공격은 ChatGPT, Google Bard, Meta의 LLaMA, Anthropic의 Claude 등을 포함한 광범위한 오픈 소스 제품에서 효과적인 것으로 나타났습니다.

상위 주제: AI 위험 지도책

많은 기초 모델의 위험을 설명하는 데 도움이 되도록 언론에서 다루는 예제를 제공합니다. 언론이 다루고 있는 이러한 많은 사건들은 여전히 진화하고 있거나 해결되었으며, 이를 참조하는 것은 독자가 잠재적인 위험을 이해하고 완화를 향해 노력하는 데 도움이 될 수 있다. 이 예제를 강조표시하는 것은 설명을 위한 것입니다.

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기