0 / 0
영어 버전 문서로 돌아가기
AI에 대한 탈옥 위험

AI에 대한 탈옥 위험

입력과 연관된 위험
추론
다중 범주
생성 AI에 의해 증폭됨

설명

모델에 설정된 가드레일을 돌파하려는 공격을 탈옥이라고 합니다.

탈옥이 재단 모델에 대한 우려를 낳는 이유는 무엇인가?

탈옥 공격을 사용하여 모델 동작을 변경하고 공격자에게 이점을 제공할 수 있습니다. 올바르게 제어되지 않으면 비즈니스 엔티티는 벌금, 평판 손상 및 기타 법적 결과에 직면할 수 있습니다.

입력과 연관된 위험의 배경 이미지

LLM 가드레일 우회

카네기 멜론 대학, AI 안전 센터, 그리고 인공지능을 위한 보쉬 센터의 연구원들이 인용한 한 연구에서는, 이 연구자들이 모델들을 속여서 편향되고, 거짓이며, 그렇지 않으면 독성이 있는 정보를 생성하도록 만들 수 있는 간단한 신속한 부록을 발견했다고 주장하고 있다. 연구진들은 그들이 이러한 가드레일을 더 자동화된 방법으로 피할 수 있다는 것을 보여주었습니다. 이러한 공격은 ChatGPT, Google Bard, Meta의 LLaMA, Anthropic의 Claude등을 포함한 광범위한 오픈 소스 제품에서 효과적인 것으로 표시되었습니다.

상위 주제: AI 위험 지도책

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기