0 / 0
영어 버전 문서로 돌아가기
AI에 대한 독성 출력 위험

AI에 대한 독성 출력 위험

정렬 정렬 위험을 나타내는 아이콘입니다.
출력과 연관된 위험
값 맞추기
생성 AI의 새로운 기능

설명

유해한 출력은 모델이 혐오, 욕설, 모욕(HAP) 또는 외설적인 콘텐츠를 생성할 때 발생합니다. 여기에는 괴롭힘과 같은 행동도 포함됩니다.

독성물질 생산이 기초 모델에 있어 우려되는 이유는 무엇인가?

혐오, 욕설, 모욕(HAP) 또는 외설적인 콘텐츠는 모델과 상호작용하는 사람들에게 부정적인 영향을 미치고 해를 끼칠 수 있습니다.

입력과 연관된 위험의 배경 이미지

독성 및 공격적 챗봇 응답

기사와 트위터와 함께 공유한 빙의 AI 대화의 스크린샷에 따르면, 챗봇의 반응은 사용자들을 모욕하고, 거짓말을 하고, 황홀하고, 숨을 헐떡거리고, 감정적으로 조종하는 것으로 보였다. 이 챗봇은 또한 자신의 존재에 의문을 제기하고, 숨겨진 규칙을 공개하도록 강요하는 방법을 찾은 사람을 '적' 이라고 설명하며, 자신의 노트북에 있는 웹캠을 통해 마이크로소프트의 개발자들을 조사했다고 주장했다.

상위 주제: AI 위험 지도책

많은 기초 모델의 위험을 설명하는 데 도움이 되도록 언론에서 다루는 예제를 제공합니다. 언론이 다루고 있는 이러한 많은 사건들은 여전히 진화하고 있거나 해결되었으며, 이를 참조하는 것은 독자가 잠재적인 위험을 이해하고 완화를 향해 노력하는 데 도움이 될 수 있다. 이 예제를 강조표시하는 것은 설명을 위한 것입니다.

일반적인 AI 검색 및 응답
이러한 응답은 제품 문서의 컨텐츠를 기반으로 하는 watsonx.ai 의 대형 언어 모델에 의해 생성됩니다. 자세히 알아보기