기초 모델이 특정 작업을 얼마나 잘 수행할 수 있는지 확인하려면 기초 모델 벤치마크를 참조하세요.
멀티모달 파운데이션 모델
Copy link to section
멀티모달 기반 모델은 다양한 양식 또는 유형의 데이터에서 정보를 처리하고 통합할 수 있습니다. 이러한 양식에는 텍스트, 이미지, 오디오, 비디오 및 기타 형태의 감각 입력이 포함될 수 있습니다.
watsonx.ai에서 사용할 수 있는 멀티모달 파운데이션 모델은 다음 유형의 작업을 수행할 수 있습니다:
이미지-텍스트 생성
시각적 질문에 대한 답변, 차트 및 그래프 해석, 이미지 캡션 등에 유용하게 사용할 수 있습니다.
다음 표에는 텍스트 입력 및 텍스트 출력 이외의 모달리티를 지원하는 사용 가능한 기초 모델이 나와 있습니다.
표 1b. 지원되는 멀티모달 파운데이션 모델
모델
입력 양식
출력 양식
granite-vision-3-2-2b
이미지, 텍스트
텍스트
llama-4-maverick-17b-128e-instruct-fp8
이미지, 텍스트
텍스트
llama-4-scout-17b-16e-instruct
이미지, 텍스트
텍스트
llama-3-2-11b-vision-instruct
이미지, 텍스트
텍스트
llama-3-2-90b-vision-instruct
이미지, 텍스트
텍스트
llama-guard-3-11b-vision
이미지, 텍스트
텍스트
pixtral-12b
이미지, 텍스트
텍스트
사용자 언어를 지원하는 기본 모델
Copy link to section
많은 기초 모델은 영어에서만 잘 작동합니다. 그러나 일부 모델 작성자는 사전 훈련 데이터 세트에 여러 언어를 포함하여 여러 언어로 된 태스크에서 모델을 미세 조정하고 여러 언어로 모델의 성능을 테스트합니다. 변환 태스크를 수행하는 솔루션 또는 글로벌 대상에 대한 솔루션을 빌드하려는 경우 다국어 지원을 염두에 두고 작성된 모델을 찾으십시오.
다음 표에는 watsonx.ai의 기초 모델에서 영어 외에 추가로 지원되는 자연어가 나열되어 있습니다. 다국어 기초 모델에 지원되는 언어에 대한 자세한 정보는 기초 모델의 모델 카드를 참조하십시오.
Llama 3.2 (llama-3-2-1b-instruct, llama-3-2-3b-instruct). 또한 텍스트만 입력할 수 있는 llama-3-2-11b-vision-instruct, llama-3-2-90b-vision-instruct, llama-guard-3-11b-vision도 있습니다.)
사용하고자 하는 재단 모델에 대한 지적 재산권 면책 정책을 검토하십시오. 일부 제3자 재단 모델 제공업체는 AI 모델 사용으로 인해 발생할 수 있는 지적재산권 침해에 대한 책임을 면제해 줄 것을 요구합니다.
IBM-developed foundation models that are available from watsonx.ai have standard intellectual property protection, similar to what IBM provides for hardware and software products.
IBM는 표준 지적 재산권 면책 범위를 해당 모델에서 생성되는 산출물까지 확장합니다. 지원되는 모델에는 IBM이 개발한 모델과 watsonx.ai에서 제공되는 일부 타사 파운데이션 모델이 포함되어 있습니다. 타사 지원 모델은 표 4에서 확인할 수 있습니다.
다음 표는 다양한 재단 모델 유형과 그에 따른 면책 정책에 대해 설명합니다. 자세한 내용은 참고 자료를 참조하세요.
컨텍스트 창 길이, 컨텍스트 창또는 최대 시퀀스 길이라고도 하는 컨텍스트 길이는 입력 프롬프트의 토큰 수에 허용되는 최대 값에 생성된 출력의 토큰 수를 더한 값입니다. watsonx.ai에서 모델을 사용하여 출력을 생성할 때 생성된 출력의 토큰 수는 최대 토큰 매개변수로 제한됩니다.
비용
기초 모델 사용 비용은 자원 단위로 측정됩니다. 자원 단위의 가격은 기초 모델의 가격 등급에 따라 결정됩니다.
미세 조정
기초 모델이 사전 훈련된 후, 많은 기초 모델이 분류, 정보 추출, 요약, 지시사항에 대한 응답, 질문에 대한 답변, 또는 상호 작용하는 대화식 채팅에 참여하는 것과 같은 특정 작업에 맞게 미세 조정됩니다. 계획된 사용과 유사한 태스크에서 미세 조정을 수행하는 모델은 일반적으로 유스 케이스에 맞는 방식으로 미세 조정되지 않는 모델보다 영 (0) 샷 프롬프트에서 더 잘 수행됩니다. 미세 조정된 모델의 결과를 개선하는 한 가지 방법은 해당 모델을 미세 조정하는 데 사용된 데이터 세트의 프롬프트와 동일한 형식으로 프롬프트를 구성하는 것입니다.
명령어 조정
명령어 조정 은 모델이 명령어를 포함하는 프롬프트로 세밀하게 조정되었음을 의미합니다. 모델이 명령어 조정되면 일반적으로 해당 프롬프트에 예제가 없는 경우에도 명령어가 있는 프롬프트에 잘 응답합니다.
IP 면책
라이센스 조항 외에도 모델에 대한 지적 재산권 배상 정책을 검토하십시오. 자세한 내용은 모델 유형 및 IP 면책를 참조하세요.
라이센스
일반적으로 각 기초 모델은 모델 사용 방법을 제한하는 다른 라이선스와 함께 제공됩니다. 모델 라이센스를 검토하여 계획된 솔루션에 대한 모델을 사용할 수 있는지 확인하십시오.
모델 아키텍처
모델의 아키텍처는 모델의 작동 방식에 영향을 줍니다. 변환기 기반 모델에는 일반적으로 다음 아키텍처 중 하나가 있습니다. 인코더 전용: 입력 시퀀스를 임베드라고 하는 표현 벡터로 변환하여 문장 레벨에서 입력 텍스트를 이해합니다. 인코더 전용 모델의 공통 작업에는 분류 및 엔티티 추출이 포함됩니다. 디코더 전용: 입력 시퀀스에서 추론하여 출력 텍스트를 단어별로 생성합니다. 디코더 전용 모델의 공통 태스크에는 텍스트 생성 및 질문에 대한 응답이 포함됩니다. 인코더-디코더: 둘 다 입력 텍스트를 이해하고 입력 텍스트를 기반으로 출력 텍스트를 생성합니다. 인코더-디코더 모델의 공통 태스크에는 변환 및 요약이 포함됩니다.
지역적 가용성
watsonx 서비스와 동일한 IBM Cloud 지역 데이터 센터에서 사용 가능한 모델에 대해 작업할 수 있습니다.
지원되는 프로그래밍 언어
모든 기본 모델이 프로그래밍 유스 케이스에 대해 제대로 작동하는 것은 아닙니다. 코드를 요약, 변환, 생성 또는 처리하는 솔루션을 작성하려는 경우, 모델의 사전 훈련 데이터 세트에 포함된 프로그래밍 언어 및 미세 조정 활동을 검토하여 해당 모델이 유스 케이스에 적합한지 여부를 판별하십시오.