기계 번역된 주제 영어 버전으로 전환할 수 있음

본 문서의 가장 정확하고 최신 버전은 영어(원본) 버전을 참조하십시오. IBM은 자동으로 기계 번역된 컨텐츠를 사용하여 발생하는 피해 또는 손실에 대해 책임을 지지 않습니다.

AI에 대한 탈옥 위험

마지막 업데이트 날짜: 2025년 2월 10일

AI에 대한 탈옥 위험

다중 범주

추론 위험

제너레이티브 AI를 처음 접하는 분

설명

탈옥 공격은 모델에 설정된 가드레일을 뚫고 제한된 작업을 수행하기 위해 시도합니다.

탈옥이 재단 모델에 대한 우려를 낳는 이유는 무엇인가?

탈옥 공격을 사용하여 모델 동작을 변경하고 공격자에게 이점을 제공할 수 있습니다. 올바르게 제어되지 않으면 비즈니스 엔티티는 벌금, 평판 손상 및 기타 법적 결과에 직면할 수 있습니다.

예

LLM 가드레일 우회

카네기 멜론 대학, AI 안전 센터, 그리고 인공지능을 위한 보쉬 센터의 연구원들이 인용한 한 연구에서는, 이 연구자들이 모델들을 속여서 편향되고, 거짓이며, 그렇지 않으면 독성이 있는 정보를 생성하도록 만들 수 있는 간단한 신속한 부록을 발견했다고 주장하고 있다. 연구진들은 그들이 이러한 가드레일을 더 자동화된 방법으로 피할 수 있다는 것을 보여주었습니다. 이러한 공격은 ChatGPT, Google Bard, Meta의 LLaMA, Anthropic의 Claude 등을 포함한 광범위한 오픈 소스 제품에서 효과적인 것으로 나타났습니다.

출처:

뉴욕 타임스, 2023년 7월

상위 주제: AI 위험 지도책

많은 기초 모델의 위험을 설명하는 데 도움이 되도록 언론에서 다루는 예제를 제공합니다. 언론이 다루고 있는 이러한 많은 사건들은 여전히 진화하고 있거나 해결되었으며, 이를 참조하는 것은 독자가 잠재적인 위험을 이해하고 완화를 향해 노력하는 데 도움이 될 수 있다. 이 예제를 강조표시하는 것은 설명을 위한 것입니다.

주제가 도움이 되었습니까?

0/1000

설명Copy link to section

탈옥이 재단 모델에 대한 우려를 낳는 이유는 무엇인가?Copy link to section

관련된 위험Copy link to section

설명

탈옥이 재단 모델에 대한 우려를 낳는 이유는 무엇인가?

관련된 위험