제3자 재단 모델
IBM watsonx.ai 에서 타사 재단 모델 컬렉션에서 선택할 수 있습니다.
다음 모델은 watsonx.ai: 사용할 수 있습니다:
- allam-1-13b-instruct
- codellama-34b-instruct-hf
- deepseek-r1-distill-llama-8b
- deepseek-r1-distill-llama-70b
- elyza-japanese-llama-2-7b-instruct
- flan-t5-xl-3b
- flan-t5-xxl-11b
- flan-ul2-20b
- jais-13b-chat
- llama-3-3-70b-instruct
- llama-3-2-1b-instruct
- llama-3-2-3b-instruct
- llama-3-2-11b-vision-instruct
- llama-3-2-90b-vision-instruct
- llama-guard-3-11b-vision
- llama-3-1-8b
- llama-3-1-8b-instruct
- llama-3-1-70b-instruct
- llama-3-405b-instruct
- llama-3-8b-instruct
- llama-3-70b-instruct
- llama-2-13b-chat
- llama-2-70b-chat
- mistral-large
- mistral-large-instruct-2407
- mistral-large-instruct-2411
- mistral-nemo-instruct-2407
- mistral-small-24b-instruct-2501
- mixtral-8x7b-base
- mixtral-8x7b-instruct-v01
- mt0-xxl-13b
- pixtral-12b
이러한 모델을 배포할 수 있는 다양한 방법에 대해 자세히 알아보고 모델의 가격 및 컨텍스트 창 길이 정보에 대한 요약을 보려면 지원되는 파운데이션 모델을 참조하세요.
IBM 기초 모델에 대한 자세한 내용은 IBM 기초 모델을 참조하세요.
모델 선택 방법
지원되는 작업 및 언어 등 모델을 선택하는 데 도움이 될 수 있는 요소를 검토하려면 모델 선택하기 및 기초 모델 벤치마크를 참조하세요.
기초 모델 세부 정보
watsonx.ai 의 기초 모델은 자연어와 프로그래밍 언어 모두에 대한 다양한 사용 사례를 지원합니다. 이러한 모델이 수행할 수 있는 작업의 유형을 확인하려면 샘플 프롬프트를 검토하고 사용해 보세요.
allam-1-13b-instruct
allam-1-13b-instruct 의 기초 모델은 국립인공지능센터(National Center for Artificial Intelligence)가 제공하고 사우디아라비아 데이터 및 인공지능 당국(Saudi Authority for Data and Artificial Intelligence)이 지원하는 아랍어와 영어의 이중 언어 대규모 언어 모델로, 대화형 작업을 지원하도록 세밀하게 조정되었습니다. ALLaM 는 아랍어 기술 발전을 위해 설계된 강력한 언어 모델의 모음입니다. 이 모델은 초기화 단계에서 Llama-2 가중치를 적용하고, 아랍어와 영어에 대한 훈련을 거칩니다.
- 사용
- 아랍어로 된 Q&A, 요약, 분류, 생성, 추출 및 번역을 지원합니다.
- 크기
- 130억 개의 매개변수
- API 가격 책정 계층
- 클래스 2. 가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
- 가용성
- 프랑크푸르트 데이터 센터의 멀티테넌트 하드웨어에 구축된 IBM 제공합니다.
- 프랑크푸르트 데이터 센터를 제외한 전용 사용을 위해 필요에 따라 배치하십시오.
- 사용해 보기
- 샘플로 실험해 보세요:
- 토큰 한도
- 컨텍스트 창 길이(입력 + 출력): 4,096
- 지원되는 자연어
- 아랍어(현대 표준 아랍어) 및 영어
- 인스트럭션 튜닝 정보
- allam-1-13b-instruct Allam-13b-base 모델을 기반으로 합니다. 이 모델은 초기화에서 보이는 토큰을 포함하여 영어와 아랍어로 총 3조 개의 토큰을 사전 학습한 기초 모델입니다. 아랍어 데이터 세트에는 정리 및 중복 제거 후 5,000억 개의 토큰이 포함되어 있습니다. 추가 데이터는 오픈 소스 컬렉션과 웹 크롤링에서 수집됩니다. allam-1-13b-instruct 의 기초 모델은 4백만 개의 아랍어와 6백만 개의 영어 프롬프트-응답 쌍으로 구성된 엄선된 세트를 통해 미세 조정됩니다.
- 모델 아키텍처
- 디코더 전용
- License
- Llama 2 커뮤니티 라이선스 및 ALLaM 라이선스
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
codellama-34b-instruct-hf
' Meta'의 Llama 2 기반으로 하는 프로그래매틱 코드 생성 모델입니다. Code Llama 코드 생성 및 토론을 위해 세밀하게 조정되었습니다.
- 사용
- Code Llama 사용하여 자연어 입력을 기반으로 코드를 생성하고, 코드를 설명하거나, 코드를 완성하고 디버깅하는 프롬프트를 만들 수 있습니다.
- 크기
340억 개의 매개변수
- API 가격 책정 계층
클래스 2. 가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
- 가용성
멀티테넌트 하드웨어에 배포된 IBM 제공합니다.
이 모델은 더 이상 사용되지 않습니다. 기초 모델 라이프사이클을 참조하세요.
- 사용해 보기
샘플로 실험해 보세요:
- 토큰 한도
컨텍스트 창 길이(입력 + 출력): 16,384
참고: 요청당 기초 모델에 의해 생성되는 토큰의 최대 개수는 8,192개로 제한됩니다.
- 지원되는 자연어
영어
- 지원되는 프로그래밍 언어
codellama-34b-instruct-hf 의 기초 모델은 Python, C++, Java, PHP, Typescript(Javascript), C#, Bash 등 많은 프로그래밍 언어를 지원합니다.
- 인스트럭션 튜닝 정보
인스트럭션 미세 조정 버전에는 자연어 인스트럭션 입력과 예상 출력을 제공하여 모델이 자연어로 유용하고 안전한 답변을 생성하도록 안내했습니다.
- 모델 아키텍처
해독기
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
DeepSeek-R1 정제된 모델
Llama 3.1 모델을 기반으로 한 DeepSeek-R1 모델의 변형된 버전은 DeepSeek AI에서 제공합니다. DeepSeek-R1 는 강력한 추론 능력을 갖춘 오픈 소스 모델입니다. DeepSeek R1 모델에 의해 생성된 데이터 샘플은 기본 Llama 모델을 미세 조정하는 데 사용됩니다.
deepseek-r1-distill-llama-8b 와 deepseek-r1-distill-llama-70b 모델은 Llama 3 를 기반으로 한 DeepSeek-R1 모델의 정제된 버전입니다. 1 8B 와 Llama 3.3 70B 모델은 각각 2014년 11월 18일 및 2015년 11월 18일에 출시되었습니다.
- 사용
zero- 또는 few-shot 프롬프트와 함께 일반적으로 사용되며, 요약, 분류, 추론, 코드 작업, 수학 등 지시 사항을 따르는 작업에서 탁월한 성능을 발휘하도록 설계되었습니다.
- 사용 가능한 크기
- 80억 개의 매개변수
- 700억 개의 매개변수
- API 가격 책정 계층
8b: 작다
70: 큰
가격 책정에 대한 자세한 내용은 표 5를 참조하세요.
- 가용성
전용 사용을 위해 온디맨드 방식으로 배포하세요.
- 사용해 보기
샘플로 실험해 보세요:
- 토큰 한도
8b 70b: 컨텍스트 창 길이(입력 + 출력): 131,072
참고: 요청당 기초 모델에 의해 생성되는 토큰의 최대 개수는 32,768개로 제한됩니다.
- 지원되는 자연어
영어
- 인스트럭션 튜닝 정보
DeepSeek-R1 의 모델은 사전 단계로 지도 학습(supervised fine-tuning, SFT)이 없는 대규모 강화 학습(RL)을 사용하여 훈련됩니다. 이후의 RL과 SFT 단계는 추론 패턴을 개선하고 모델을 인간의 선호도에 맞추는 것을 목표로 합니다. DeepSeek-R1-Distill 모델은 DeepSeek-R1 에서 생성된 샘플을 사용하여 오픈 소스 모델을 기반으로 미세 조정됩니다.
- 모델 아키텍처
해독기
- License
8b: 라이선스
70b: 라이선스
- 자세히 알아보기
다음 리소스를 읽어보세요:
elyza-japanese-llama-2-7b-instruct
elyza-japanese-llama-2-7b-instruct 모델은 ELYZA, Inc.에서 Hugging Face 에서 제공합니다. elyza-japanese-llama-2-7b-instruct 의 기초 모델은 Meta 의 Llama 2 모델의 버전으로, 일본어 텍스트를 이해하고 생성하도록 훈련된 모델입니다. 이 모델은 사용자 지시에 따라 다양한 작업을 해결하고 대화에 참여할 수 있도록 미세 조정되었습니다.
- 사용
- 일반적으로 ' zero- ' 또는 ' few-shot 프롬프트와 함께 사용합니다. 일본어 분류 및 추출과 영어와 일본어 간 번역에 적합합니다. 일본어로 메시지가 표시될 때 가장 잘 작동합니다.
- 크기
- 70억 개의 매개변수
- API 가격 책정 계층
- 클래스 2. 가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
- 가용성
- 도쿄 데이터 센터의 멀티테넌트 하드웨어에 배포된 IBM 제공합니다.
- 사용해 보기
- 샘플로 실험해 보세요:
- 토큰 한도
- 컨텍스트 창 길이(입력 + 출력): 4,096
- 지원되는 자연어
- 일본어, 영어
- 인스트럭션 튜닝 정보
- 일본어 학습을 위해 위키피디아, 개방형 초대형 크롤링 ALMAnaCH coRpus (Common Crawl 코퍼스에서 언어를 분류하고 필터링하여 생성한 다국어 코퍼스) 등 다양한 소스의 일본어 텍스트가 사용되었습니다. 이 모델은 ELYZA에서 생성한 데이터 세트를 기반으로 미세 조정되었습니다. 엘리자 태스크 100 데이터 세트에는 사람이 직접 생성하고 평가한 다양하고 복잡한 100개의 태스크가 포함되어 있습니다. 엘리자 태스크 100 데이터 세트는 HuggingFace 공개적으로 사용할 수 있습니다.
- 모델 아키텍처
- 해독기
- License
- License
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
flan-t5-xl-3b
flan-t5-xl-3b 모델은 Google 에서 Hugging Face 에 제공됩니다. 이 모델은 사전 학습된 텍스트-텍스트 전송 변환기T5 모델을 기반으로 하며 명령어 미세 조정 방법을 사용하여 ' zero- ' 및 ' few-shot ' 성능을 향상시킵니다. 또한 이 모델은 추론 작업을 수행하는 능력을 향상시키기 위해 연쇄 사고 데이터로 미세 조정됩니다.
- 사용
- 일반적으로 ' zero- ' 또는 ' few-shot 프롬프트와 함께 사용합니다.
- 크기
- 30억 개의 매개변수
- API 가격 책정 계층
- 클래스 1. 가격 책정에 대한 자세한 내용은 표 3 및 표 5를 참조하세요.
- 가용성
- 멀티테넌트 하드웨어에 배포된 IBM 제공합니다.
- 전용 사용을 위해 온디맨드 방식으로 배포하세요.
- 사용해 보기
- 샘플 프롬프트
- 토큰 한도
- 컨텍스트 창 길이(입력 + 출력): 4,096
- 지원되는 자연어
- 다국어
- 인스트럭션 튜닝 정보
- 이 모델은 기존의 자연어 처리 작업 외에도 연쇄적 사고 데이터에서 여러 단계의 추론이 필요한 작업에 대해 미세 조정되었습니다. 사용된 학습 데이터 세트에 대한 세부 정보가 게시됩니다.
- 모델 아키텍처
- 인코더-디코더
- License
- Apache 2.0 라이선스
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
flan-t5-xxl-11b
flan-t5-xxl-11b 모델은 Google 에서 Hugging Face 에 제공됩니다. 이 모델은 사전 학습된 텍스트-텍스트 전송 변환기T5 모델을 기반으로 하며 명령어 미세 조정 방법을 사용하여 ' zero- ' 및 ' few-shot ' 성능을 향상시킵니다. 또한 이 모델은 추론 작업을 수행하는 능력을 향상시키기 위해 연쇄 사고 데이터로 미세 조정됩니다.
- 사용
- 일반적으로 ' zero- ' 또는 ' few-shot 프롬프트와 함께 사용합니다.
- 크기
- 110억 개의 매개변수
- API 가격 책정 계층
- 클래스 2. 가격 책정에 대한 자세한 내용은 표 3 및 표 5를 참조하세요.
- 가용성
- 멀티테넌트 하드웨어에 배포된 IBM 제공합니다.
- 전용 사용을 위해 온디맨드 방식으로 배포하세요.
- 사용해 보기
- 샘플로 실험해 보세요:
- 토큰 한도
- 컨텍스트 창 길이(입력 + 출력): 4,096
- 지원되는 자연어
- 영어, 독일어, 프랑스어
- 인스트럭션 튜닝 정보
- 이 모델은 기존의 자연어 처리 작업 외에도 연쇄적 사고 데이터에서 여러 단계의 추론이 필요한 작업에 대해 미세 조정되었습니다. 사용된 학습 데이터 세트에 대한 세부 정보가 게시됩니다.
- 모델 아키텍처
- 인코더-디코더
- License
- Apache 2.0 라이선스
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
flan-ul2-20b
flan-ul2-20b 모델은 Google 에서 Hugging Face 에 제공됩니다. 이 모델은 통합 언어 학습 패러다임UL2을 사용하여 학습되었습니다. 이 모델은 언어 생성, 언어 이해, 텍스트 분류, 질문 답변, 상식 추론, 긴 텍스트 추론, 구조화된 지식 기반, 정보 검색, 문맥 내 학습, ' zero-shot 프롬프트, 원샷 프롬프트에 최적화되어 있습니다.
- 사용
- 일반적으로 ' zero- ' 또는 ' few-shot 프롬프트와 함께 사용합니다.
- 크기
- 200억 개의 매개변수
- API 가격 책정 계층
- 클래스 3. 가격 책정에 대한 자세한 내용은 표 3 및 표 5를 참조하세요.
- 가용성
- 멀티테넌트 하드웨어에 배포된 IBM 제공합니다.
- 전용 사용을 위해 온디맨드 방식으로 배포하세요.
- 사용해 보기
- 샘플로 실험해 보세요:
- 샘플 프롬프트
- 샘플 프롬프트: 수익 통화 요약
- 샘플 프롬프트: 회의 내용 요약
- 샘플 프롬프트: 시나리오 분류
- 샘플 프롬프트: 감정 분류
- 샘플 프롬프트: 감사 노트 생성
- 샘플 프롬프트: 명명된 엔터티 추출
- 샘플 프롬프트: 팩트 추출
- 샘플 노트북: watsonx 사용하여 사이버 보안 문서 요약하기
- 샘플 노트북: 검색 증강 생성(RAG)을 사용하여 질문에 답하기 위해 watsonx LangChain 사용
- 샘플 노트북: watsonx, Elasticsearch, LangChain 사용하여 질문에 답하기(RAG)
- 샘플 노트북: watsonx Elasticsearch Python 라이브러리를 사용하여 질문에 답하기(RAG)
- 토큰 한도
- 컨텍스트 창 길이(입력 + 출력): 4,096
- 지원되는 자연어
- 영어
- 인스트럭션 튜닝 정보
- flan-ul2-20b 모델은 커먼 크롤의 웹 크롤링 말뭉치의 방대하고 정리된 버전으로 사전 학습됩니다. 이 모델은 다양한 자연어 처리 작업에 최적화하기 위해 여러 사전 학습 목표에 따라 미세 조정됩니다. 사용된 학습 데이터 세트에 대한 세부 정보가 게시됩니다.
- 모델 아키텍처
- 인코더-디코더
- License
- Apache 2.0 라이선스
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
jais-13b-chat
jais-13b-chat 의 기초 모델은 아랍어와 영어에 대한 이중 언어 대규모 언어 모델로, 대화형 작업을 지원하도록 미세 조정되었습니다.
- 사용
- 아랍어로 된 Q&A, 요약, 분류, 생성, 추출 및 번역을 지원합니다.
- 크기
- 130억 개의 매개변수
- API 가격 책정 계층
- 클래스 2. 가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
- 가용성
- 프랑크푸르트 데이터 센터의 멀티테넌트 하드웨어에 구축된 IBM 제공합니다.
- 사용해 보기
- 샘플 프롬프트: 아랍어 채팅
- 토큰 한도
- 컨텍스트 창 길이(입력 + 출력): 2,048
- 지원되는 자연어
- 아랍어(현대 표준 아랍어) 및 영어
- 인스트럭션 튜닝 정보
- Jais-13b-chat Jais-13b 모델을 기반으로 합니다. 이 모델은 1,160억 개의 아랍어 토큰과 2,790억 개의 영어 토큰으로 훈련된 기초 모델입니다. Jais-13b-chat 4백만 개의 아랍어와 6백만 개의 영어 프롬프트-응답 쌍으로 구성된 엄선된 세트를 통해 미세 조정됩니다.
- 모델 아키텍처
- 해독기
- License
- Apache 2.0 라이선스
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
Llama 3.3 70B Instruct
' Meta Llama 3.3 다국어 대규모 언어 모델(LLM)은 사전 학습 및 인스트럭션 튜닝된 생성 모델(텍스트 입력/텍스트 출력)로 700억 개의 매개변수가 있습니다.
llama-3-3-70b-instruct 은 인기 있는 Llama 3.1의 개정판입니다. 70B 기초 모델 교육. Llama 3.3 기초 모델은 코딩, 단계별 추론, 도구 호출에 더 적합합니다. Llama 3.3 모델은 크기가 작지만, 성능은 Llama 3.1 405b 모델과 비슷하므로 개발자들에게 훌륭한 선택입니다.
- 사용
챗봇처럼 다국어 대화창 출력을 생성합니다. 모델별 프롬프트 형식을 사용합니다.
- 크기
700억 개의 매개변수
- API 가격 책정 계층
13급
가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
- 가용성
정량화된 버전의 모델은 멀티테넌트 하드웨어에 배포된 IBM 제공합니다.
두 가지 버전의 모델을 온디맨드 방식으로 배포하여 전용으로 사용할 수 있습니다:
- llama-3-3-70b-instruct-hf: 원문은 Hugging Face 에 게시된 Meta의 글입니다.
- llama-3-3-70b-instruct: 4개가 아닌 2개의 GPU로 배포할 수 있는 정량화된 버전의 모델입니다.
- 사용해 보기
샘플로 실험해 보세요:
- 토큰 한도
컨텍스트 창 길이(입력 + 출력): 131,072
- 지원되는 자연어
영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어
- 인스트럭션 튜닝 정보
Llama 3.3은 공개적으로 사용 가능한 소스에서 15조 개의 토큰으로 사전 학습되었습니다. 미세 조정 데이터에는 공개적으로 사용 가능한 인스트럭션 데이터 세트와 합성으로 생성된 2,500만 개 이상의 예제가 포함되어 있습니다.
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
Llama 3.2 Instruct
' Meta Llama 32 파운데이션 모델 컬렉션은 ' Meta'에서 제공합니다. llama-3-2-1b-instruct 및 llama-3-2-3b-instruct 모델은 모바일 기기에 장착할 수 있는 가장 작은 Llama 3.2 모델입니다. 이 모델은 고도로 개인화된 온디바이스 상담원을 구축하는 데 사용할 수 있는 가벼운 텍스트 전용 모델입니다.
예를 들어 모델에게 최근 받은 메시지 10개를 요약해 달라고 요청하거나 다음 달 일정을 요약해 달라고 요청할 수 있습니다.
- 사용
챗봇처럼 대화창 출력을 생성합니다. 모델별 프롬프트 형식을 사용합니다. 크기가 작고 컴퓨팅 리소스 및 메모리 요구 사항이 크지 않아 모바일 및 기타 에지 디바이스를 포함한 대부분의 하드웨어에서 로컬로 실행할 수 있는 Llama 32 Instruct 모델입니다.
- 크기
- 10억 개의 매개변수
- 30억 개의 매개변수
- API 가격 책정 계층
- 1b: 클래스 C1
- 3b: 클래스 8
가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
가격 책정에 대한 자세한 내용은 생성 AI 자산에 대한 청구 세부 정보를 참조하세요.
- 가용성
- 멀티테넌트 하드웨어에 배포된 IBM 제공합니다.
- 사용해 보기
- 토큰 한도
컨텍스트 창 길이(입력 + 출력)
- 1b: 131,072
- 3b: 131,072
요청당 재단 모델에서 생성되는 토큰을 의미하는 최대 신규 토큰은 8,192개로 제한됩니다.
- 지원되는 자연어
영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어
- 인스트럭션 튜닝 정보
공개적으로 사용 가능한 소스로부터 최대 9조 개의 토큰 데이터를 사전 학습합니다. 모델 개발의 사전 학습 단계에 Llama 3.1 8B 및 70B 모델의 로짓이 통합되었으며, 이 대규모 모델의 출력(로짓)이 토큰 수준의 타깃으로 사용되었습니다. 사후 학습에서는 감독 미세 조정(SFT), 거부 샘플링(RS), 직접 선호도 최적화(DPO)를 사용하여 사전 학습된 모델을 정렬합니다.
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
Llama 3.2 Vision Instruct
' Meta Llama 32 파운데이션 모델 컬렉션은 ' Meta'에서 제공합니다. llama-3-2-11b-vision-instruct 및 llama-3-2-90b-vision-instruct 모델은 문서 수준의 이해, 차트 및 그래프 해석, 이미지 캡션과 같은 이미지 인, 텍스트 아웃 사용 사례를 위해 제작되었습니다.
- 사용
챗봇처럼 대화 출력을 생성하고 분류, 물체 감지 및 식별, 이미지-텍스트 변환(필기 포함), 상황별 Q&A, 데이터 추출 및 처리, 이미지 비교 및 개인 시각 지원 등의 컴퓨터 비전 작업을 수행할 수 있습니다. 모델별 프롬프트 형식을 사용합니다.
- 크기
- 110억 개의 매개변수
- 900억 개의 매개변수
- API 가격 책정 계층
- 11b: 클래스 9
- 90b: 클래스 10
가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
- 가용성
멀티테넌트 하드웨어에 배포된 IBM 제공합니다.
- 사용해 보기
- 토큰 한도
컨텍스트 창 길이(입력 + 출력)
- 11b: 131,072
- 90b: 131,072
요청당 재단 모델에서 생성되는 토큰을 의미하는 최대 신규 토큰은 8,192개로 제한됩니다. 모델에 제출하는 이미지에 대해 계산되는 토큰은 컨텍스트 창 길이에 포함되지 않습니다.
- 지원되는 자연어
영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어(텍스트만 입력 가능)를 지원합니다. 입력에 이미지가 포함된 경우에만 영어로 표시됩니다.
- 인스트럭션 튜닝 정보
Llama 3.2 Vision 모델은 핵심 대규모 언어 모델 가중치와는 별도로 학습된 이미지 추론 어댑터 가중치를 사용합니다. 이렇게 분리하면 모델에 대한 일반적인 지식이 보존되고 사전 학습 시간과 실행 시간 모두에서 모델의 효율성이 높아집니다. Llama 3.2 Vision 는 60억 개의 이미지-텍스트 쌍을 통해 사전 훈련되었는데, 이는 Llama 3 를 사전 훈련하는 데 필요한 컴퓨팅 리소스보다 훨씬 적은 양입니다.1 70B 기초 모델만으로도 충분합니다. Llama 3.2 모델은 입력에 필요한 경우에만 이미지 추론을 위해 더 많은 컴퓨팅 자원을 활용할 수 있기 때문에 효율적으로 실행됩니다.
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
llama-guard-3-11b-vision
' Meta Llama 32 파운데이션 모델 컬렉션은 ' Meta'에서 제공합니다. llama-guard-3-11b-vision 텍스트 전용 Llama-Guard-3 모델을 멀티 모드로 발전시킨 것입니다. 이 모델은 사용자 입력(프롬프트 분류)의 이미지 및 텍스트 콘텐츠를 안전 또는 안전하지 않은 것으로 분류하는 데 사용할 수 있습니다.
- 사용
이 모델을 사용하여 이미지-텍스트 프롬프트에서 이미지와 텍스트의 안전성을 확인합니다.
- 크기
- 110억 개의 매개변수
- API 가격 책정 계층
클래스 9. 가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
- 가용성
멀티테넌트 하드웨어에 배포된 IBM 제공합니다.
- 사용해 보기
- 토큰 한도
컨텍스트 창 길이(입력 + 출력): 131,072
요청당 재단 모델에서 생성되는 토큰을 의미하는 최대 신규 토큰은 8,192개로 제한됩니다. 모델에 제출하는 이미지에 대해 계산되는 토큰은 컨텍스트 창 길이에 포함되지 않습니다.
- 지원되는 자연어
영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어(텍스트만 입력 가능)를 지원합니다. 입력에 이미지가 포함된 경우에만 영어로 표시됩니다.
- 인스트럭션 튜닝 정보
콘텐츠 안전 분류를 위해 미세 조정된 사전 학습된 모델입니다. 안전하지 않은 것으로 분류되는 콘텐츠 유형에 대한 자세한 내용은 모델 카드를 참조하세요.
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
Llama 3.1 8b
' Meta Llama 3.1 파운데이션 모델 컬렉션은 ' Meta'에서 제공합니다. Llama 3.1 기본 기초 모델은 도구 사용을 지원하고 전반적으로 더 강력한 추론 능력을 갖춘 다국어 모델입니다.
- 사용
- 긴 형식의 텍스트 요약과 다국어 대화 에이전트 또는 코딩 도우미에 사용하세요.
- 크기
- 80억 개의 매개변수
- API 가격 책정 계층
- 가격 책정에 대한 자세한 내용은 표 5를 참조하세요.
- 가용성
- 전용 사용을 위해 온디맨드 방식으로 배포하세요.
- 토큰 한도
- 컨텍스트 창 길이(입력 + 출력): 131,072
- 지원되는 자연어
- 영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어
- 모델 아키텍처
- 디코더 전용
- License
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
Llama 3.1 Instruct
' Meta Llama 3.1 파운데이션 모델 컬렉션은 ' Meta'에서 제공합니다. Llama 3.1 기초 모델은 다국어 대화 사용 사례에 최적화된 사전 학습 및 인스트럭션 조정된 텍스트 전용 생성 모델입니다. 이 모델은 인간의 피드백과 함께 감독된 미세 조정 및 강화 학습을 사용하여 유용성과 안전성에 대한 인간의 선호도에 맞춰 조정합니다.
llama-3-405b-instruct 는 현재까지 Meta 가 개발한 가장 큰 오픈 소스 재단 모델입니다. 이 기초 모델은 합성 데이터 생성기, 훈련 후 데이터 순위 판정자, 또는 더 추론 친화적이고 파생적인 모델에서 전문적인 역량을 향상시킬 수 있는 모델 교사/감독자로서도 사용될 수 있습니다.
- 사용
챗봇처럼 대화창 출력을 생성합니다. 모델별 프롬프트 형식을 사용합니다.
- 크기
- 80억 개의 매개변수
- 700억 개의 매개변수
- 4,050억 개의 매개변수
- API 가격 책정 계층
- 8b: 클래스 1
- 70b: 클래스 2
- 405b: 클래스 3(입력), 클래스 7(출력)
가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
8b 와 70b 모델을 온디맨드 방식으로 도입하는 데 드는 비용에 대한 자세한 내용은 표 5를 참조하십시오.
- 가용성
- 405b: IBM 에서 제공하며, 다중 테넌트 하드웨어에 배포됩니다.
- 8b 70b 만 해당: 전용 사용을 위해 필요할 때 배포하십시오.
8b 과 70b 기초 모델의 배포( IBM deployments)는 더 이상 사용되지 않습니다. 자세한 내용은 파운데이션 모델 수명 주기를 참조하세요.
- 사용해 보기
- 토큰 한도
컨텍스트 창 길이(입력 + 출력)
8b 및 70b: 131,072명
405b: 16,384
- 이 모델은 131,072의 컨텍스트 창 길이를 지원하지만, 모델이 응답을 생성하는 데 걸리는 시간을 줄이기 위해 창을 16,384로 제한합니다.
요청당 재단 모델에서 생성되는 토큰을 의미하는 최대 신규 토큰은 4,096개로 제한됩니다.
- 지원되는 자연어
영어, 독일어, 프랑스어, 이탈리아어, 포르투갈어, 힌디어, 스페인어, 태국어
- 인스트럭션 튜닝 정보
Llama 3.1은 공개적으로 사용 가능한 소스에서 15조 개의 토큰으로 사전 학습되었습니다. 미세 조정 데이터에는 공개적으로 사용 가능한 인스트럭션 데이터 세트와 합성으로 생성된 2,500만 개 이상의 예제가 포함되어 있습니다.
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
Llama 3 Instruct
Meta 의 기초 모델( Llama 3 )은 Meta Llama 3 로 구축되고 Meta 에서 Hugging Face 에 제공되는 접근 가능하고 개방된 대규모 언어 모델입니다. Llama 3 기초 모델은 다양한 사용 사례를 지원할 수 있는 인스트럭션이 미세 조정된 언어 모델입니다.
- 사용
챗봇처럼 대화창 출력을 생성합니다.
- 크기
- 80억 개의 매개변수
- 700억 개의 매개변수
- API 가격 책정 계층
- 8b: 클래스 1
- 70b: 클래스 2
- 가용성
- IBM 에서 제공하며, 다중 테넌트 하드웨어에 배포됨(시드니 지역에서는 70b ).
- 전용 사용을 위해 온디맨드 방식으로 배포하세요.
- 사용해 보기
- 토큰 한도
컨텍스트 창 길이(입력 + 출력)
- 8b: 8,192
- 70b: 8,192
참고: 요청당 재단 모델에서 생성되는 토큰을 의미하는 최대 신규 토큰은 4,096개로 제한됩니다.
- 지원되는 자연어
영어
- 인스트럭션 튜닝 정보
Llama 3 훈련 후 절차의 개선을 통해 잘못된 거부율을 줄이고, 정렬을 개선하며, 기초 모델 출력의 다양성을 높입니다. 그 결과 추론, 코드 생성 및 명령어 추종 기능이 향상됩니다. Llama 3 더 많은 훈련 토큰( 15T )을 가지고 있어 언어 이해력이 더 뛰어납니다.
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
Llama 2 Chat
Llama 2 Chat 의 모델은 Meta 에서 Hugging Face 에 제공됩니다. 미세 조정된 모델은 채팅 생성에 유용합니다. 이 모델은 공개적으로 사용 가능한 온라인 데이터로 사전 학습되고 사람의 피드백을 통해 강화 학습을 사용하여 미세 조정됩니다.
130억 개 매개변수 또는 700억 개 매개변수 버전의 모델을 사용하도록 선택할 수 있습니다.
- 사용
챗봇처럼 대화창 출력을 생성합니다. 모델별 프롬프트 형식을 사용합니다.
- 크기
- 130억 개의 매개변수
- 700억 개의 매개변수
- API 가격 책정 계층
- 가용성
- 13b
- 멀티테넌트 하드웨어에 배포된 IBM 제공
- 전용 사용을 위해 온디맨드 배포
- 70b
- 전용 사용을 위해 온디맨드 배포
IBM 에서 제공하는 이 기초 모델의 배포는 더 이상 사용되지 않습니다. 기초 모델 라이프사이클을 참조하세요.
- 13b
- 사용해 보기
샘플로 실험해 보세요:
- 토큰 한도
컨텍스트 창 길이(입력 + 출력)
- 13b: 4,096
- 70b: 4,096
- 지원되는 자연어
영어
- 인스트럭션 튜닝 정보
Llama 2 공개적으로 사용 가능한 소스에서 2조 개의 토큰으로 사전 학습되었습니다. 미세 조정 데이터에는 공개적으로 사용 가능한 지침 데이터 세트와 사람이 주석을 단 백만 개 이상의 새로운 예제가 포함되어 있습니다.
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
mistral-large
Mistral Large 2 Mistral AI 가 개발한 대규모 언어 모델의 가족입니다. mistral-large 의 기초 모델은 영어, 프랑스어, 스페인어, 독일어, 이탈리아어의 문법과 문화적 맥락을 유창하게 이해하고 있습니다. 기초 모델은 수십 개의 다른 언어를 이해할 수 있습니다. 이 모델에는 큰 컨텍스트 창이 있으므로 검색 증강 생성(RAG) 사용 사례를 위해 제출하는 프롬프트에 컨텍스트 정보로 대용량 문서를 추가할 수 있습니다. mistral-large 의 기초 모델은 코드 생성, 검토, 코멘트 달기, 함수 호출과 같은 프로그래밍 작업에 효과적이며, JSON 형식으로 결과를 생성할 수 있습니다.
더 자세한 시작하기 정보는 ' Mistral AI ' 웹사이트의 watsonx.ai 페이지를 참조하세요.
- 사용
텍스트 이해, 변환, 코드 생성 등 복잡한 다국어 추론 작업에 적합합니다. 모델의 컨텍스트 창이 크기 때문에 모델에 메시지를 표시할 때 최대 토큰 매개변수를 사용하여 토큰 제한을 지정하세요.
- API 가격 책정 계층
제공된 추론 가능한 언어( Mistral Large ) 모델의 가격은 배수로 지정되지 않습니다. 다음과 같은 특별 가격 책정 단계가 사용됩니다:
- 입력 계층: Mistral Large 입력
- 출력 계층: Mistral Large
가격 책정에 대한 자세한 내용은 표 3을 참조하세요. 이 온디맨드 모델을 도입하는 데 드는 비용에 대한 자세한 내용은 표 5를 참조하십시오.
주의 : 이 기초 모델에는 사용 시간당 추가 액세스 요금이 적용됩니다.- 가용성
- 멀티테넌트 하드웨어에 배포된 IBM 제공
- 전용 사용을 위해 온디맨드 배포
- 사용해 보기
- 토큰 한도
컨텍스트 창 길이(입력 + 출력): 131,072
참고: 요청당 기초 모델에 의해 생성되는 토큰의 최대 개수는 16,384개로 제한됩니다.
- 지원되는 자연어
영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 중국어, 일본어, 한국어, 포르투갈어, 네덜란드어, 폴란드어 및 기타 수십 개의 언어가 지원됩니다.
- 지원되는 프로그래밍 언어
mistral-large 모델은 Python, 자바, C, C++, JavaScript,, 배쉬, 스위프트, Fortran 등 80개 이상의 프로그래밍 언어에 대해 학습을 마쳤습니다.
- 인스트럭션 튜닝 정보
mistral-large 의 기초 모델은 다양한 분야의 텍스트, 코드베이스, 수학 데이터 등 다양한 데이터 세트에 대해 사전 훈련을 거칩니다.
- 모델 아키텍처
디코더 전용
- License
면책 한도와 관련된 계약상 보호에 관한 정보를 포함한 이용약관은 이용약관을 참조하세요.
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
mistral-large-instruct-2411
mistral-large-instruct-2411 의 기초 모델( foundation model)은 켄트 대학( Mistral AI )의 모델이며, 켄트 대학의 모델( Mistral Large 2 ) 계열에 속합니다. 이 모델은 추론, 지식, 코딩에 특화되어 있습니다. 이 모델은 Mistral-Large-Instruct-2407 의 기본 모델의 기능을 확장하여 긴 프롬프트 문맥, 시스템 프롬프트 지침, 기능 호출 요청을 더 잘 처리할 수 있도록 합니다.
- 사용
mistral-large-instruct-2411 의 기초 모델은 다국어, 코딩에 능숙, 에이전트 중심이며, 검색 강화 생성 작업과 큰 맥락의 프롬프트가 필요한 기타 사용 사례를 지원하기 위해 시스템 프롬프트를 준수합니다.
- 크기
1230억 개의 매개 변수
- API 가격 책정 계층
가격 책정에 대한 자세한 내용은 표 5를 참조하세요.
주의 : 이 기초 모델에는 사용 시간당 추가 액세스 요금이 적용됩니다.- 가용성
전용 사용을 위해 온디맨드 방식으로 배포하세요.
- 사용해 보기
- 토큰 한도
컨텍스트 창 길이(입력 + 출력): 131,072
- 지원되는 자연어
여러 언어를 지원하며 특히 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 중국어, 일본어, 한국어, 아랍어, 힌디어에 강합니다.
- 지원되는 프로그래밍 언어
mistral-large-instruct-2411 의 기초 모델은 Python, Java, C, C++, JavaScript,, Bash, Swift, Fortran 를 포함한 80개 이상의 프로그래밍 언어로 훈련되었습니다.
- 인스트럭션 튜닝 정보
mistral-large-instruct-2411 Mistral-Large-Instruct-2407 의 기초 모델은 의 기초 모델을 확장한 것입니다. Mistral AI 훈련을 통해 모델의 추론 능력이 향상되었습니다. 훈련은 또한 모델이 보다 신중하고 분별력 있게 반응하고, 해결책을 찾지 못하거나 확실한 답변을 제공할 충분한 정보가 없을 때 이를 인식할 수 있도록 미세 조정함으로써 환각을 줄이는 데 중점을 두었습니다.
- License
면책 한도와 관련된 계약상 보호에 관한 정보를 포함한 이용약관은 이용약관을 참조하세요.
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
mistral-nemo-instruct-2407
Mistral AI 의 기초 모델인 mistral-nemo-instruct-2407 는 NVIDIA 와의 협력으로 구축되었습니다. Mistral NeMo '은 추론, 세계 지식, 코딩 정확도에서 특히 비슷한 크기의 모델에 비해 매우 뛰어난 성능을 보입니다.
- 사용
- ' Mistral NeMo ' 모델은 다국어이며 함수 호출에 대해 학습됩니다.
- 크기
- 120억 개의 매개변수
- API 가격 책정 계층
- 가격 책정에 대한 자세한 내용은 표 5를 참조하세요.
- 가용성
- 전용 사용을 위해 온디맨드 방식으로 배포하세요.
- 토큰 한도
- 컨텍스트 창 길이(입력 + 출력): 131,072
- 지원되는 자연어
- 여러 언어를 지원하며 특히 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 포르투갈어, 중국어, 일본어, 한국어, 아랍어, 힌디어에 강합니다.
- 지원되는 프로그래밍 언어
- ' Mistral NeMo ' 모델은 여러 프로그래밍 언어에 대해 학습되었습니다.
- 인스트럭션 튜닝 정보
- Mistral NeMo 고급 미세 조정 및 정렬 단계를 거쳤습니다.
- License
- Apache 2.0 라이선스
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
mistral-small-24b-instruct-2501
Mistral Small 3는 Mistral AI 가 개발한 비용 효율적이고 빠르며 신뢰할 수 있는 기초 모델입니다. mistral-small-24b-instruct-2501 의 모델은 지시 사항에 맞게 조정되어 있으며, 데이터 추출, 문서 요약, 설명 작성 등 추론 능력이 필요한 작업에서 잘 작동합니다. 에이전트 애플리케이션을 지원하도록 구축되었으며, 시스템 프롬프트와 JSON 출력 생성을 통한 기능 호출을 준수합니다.
더 자세한 시작하기 정보는 ' Mistral AI ' 웹사이트의 watsonx.ai 페이지를 참조하세요.
- 사용
대화형 에이전트와 기능 호출에 적합합니다.
- API 가격 책정 계층
9급
가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
- 가용성
제공: IBM 프랑크푸르트 지역의 멀티테넌트 하드웨어에만 배포됨.
- 사용해 보기
- 토큰 한도
컨텍스트 창 길이(입력 + 출력): 32,768
참고:
- 최대 신규 토큰, 즉 요청당 기초 모델에 의해 생성되는 토큰은 16,384개로 제한됩니다.
- 지원되는 자연어
영어, 프랑스어, 독일어, 이탈리아어, 스페인어, 중국어, 일본어, 한국어, 포르투갈어, 네덜란드어, 폴란드어 및 기타 수십 개의 언어가 지원됩니다.
- 지원되는 프로그래밍 언어
mistral-small-24b-instruct-2501 모델은 Python, Java, C, C++, JavaScript,, Bash, Swift, Fortran 를 포함한 80개 이상의 프로그래밍 언어에 대해 훈련되었습니다.
- 인스트럭션 튜닝 정보
mistral-small-24b-instruct-2501 의 기초 모델은 다양한 분야의 텍스트, 코드베이스, 수학 데이터 등 다양한 데이터 세트에 대해 사전 훈련을 거칩니다.
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
mixtral-8x7b-base
mixtral-8x7b-base 의 기초 모델은 Mistral AI 에서 제공됩니다. mixtral-8x7b-base 기반 모델은 모델 매개변수를 그룹화하는 생성적 희소 혼합-전문가 네트워크이며, 각 토큰에 대해 토큰을 처리할 그룹의 하위 집합( 전문가 라고 함)을 선택합니다. 결과적으로 각 토큰은 470억 개의 파라미터에 액세스할 수 있지만, 추론에는 130억 개의 활성 파라미터만 사용하므로 비용과 지연 시간이 줄어듭니다.
- 사용
분류, 요약, 생성, 코드 생성 및 변환, 언어 번역 등 다양한 작업에 적합합니다.
- 크기
46.46.7 개의 매개변수
- API 가격 책정 계층
가격 책정에 대한 자세한 내용은 표 5를 참조하세요.
- 가용성
전용 사용을 위해 온디맨드 방식으로 배포하세요.
- 토큰 한도
컨텍스트 창 길이(입력 + 출력): 32,768
참고: 요청당 기초 모델에 의해 생성되는 토큰의 최대 개수는 16,384개로 제한됩니다.
- 지원되는 자연어
영어, 프랑스어, 독일어, 이탈리아어, 스페인어
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
mixtral-8x7b-instruct-v01
mixtral-8x7b-instruct-v01 의 기초 모델은 Mistral AI 에서 제공됩니다. mixtral-8x7b-instruct-v01 기반 모델은 모델 매개변수를 그룹화한 다음 각 토큰에 대해 토큰을 처리할 그룹의 하위 집합( 전문가 라고 함)을 선택하는 사전 훈련된 생성적 희소 혼합 전문가 네트워크입니다. 결과적으로 각 토큰은 470억 개의 파라미터에 액세스할 수 있지만, 추론에는 130억 개의 활성 파라미터만 사용하므로 비용과 지연 시간이 줄어듭니다.
- 사용
분류, 요약, 생성, 코드 생성 및 변환, 언어 번역 등 다양한 작업에 적합합니다. 모델의 컨텍스트 창이 비정상적으로 크기 때문에 모델에 메시지를 표시할 때 최대 토큰 매개 변수를 사용하여 토큰 제한을 지정하세요.
- 크기
46.46.7 개의 매개변수
- API 가격 책정 계층
클래스 1. 가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
- 사용해 보기
- 토큰 한도
컨텍스트 창 길이(입력 + 출력): 32,768
참고: 요청당 기초 모델에 의해 생성되는 토큰의 최대 개수는 16,384개로 제한됩니다.
- 지원되는 자연어
영어, 프랑스어, 독일어, 이탈리아어, 스페인어
- 인스트럭션 튜닝 정보
Mixtral 기초 모델은 인터넷 데이터에 대해 사전 훈련되어 있습니다. Mixtral 8x7B Instruct 의 기초 모델은 지침을 따르도록 미세 조정됩니다.
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
mt0-xxl-13b
mt0-xxl-13b 모델은 BigScience 에서 Hugging Face 에 제공됩니다. 이 모델은 영어, 영어 이외의 언어 및 다국어 프롬프트가 포함된 언어 생성 및 번역 작업을 지원하도록 최적화되어 있습니다.
사용법: 일반적으로 ' zero- ' 또는 ' few-shot 프롬프트와 함께 사용합니다. 번역 작업의 경우 마침표를 넣어 번역하려는 텍스트의 끝을 표시하거나 모델이 문장을 번역하지 않고 계속 진행할 수 있습니다.
- 크기
- 130억 개의 매개변수
- API 가격 책정 계층
- 클래스 2. 가격 책정에 대한 자세한 내용은 표 5를 참조하세요.
- 가용성
- 전용 사용을 위해 온디맨드 방식으로 배포됩니다.
- 사용해 보기
- 다음 샘플로 실험해 보세요:
- 지원되는 자연어
- 다국어
- 토큰 한도
- 컨텍스트 창 길이(입력 + 출력): 4,096
- 지원되는 자연어
- 이 모델은 108개 언어의 다국어 데이터로 사전 학습되고 46개 언어의 다국어 데이터로 미세 조정되어 다국어 작업을 수행할 수 있습니다.
- 인스트럭션 튜닝 정보
- BigScience 코드와 데이터 세트에 대한 세부 정보를 게시합니다.
- 모델 아키텍처
- 인코더-디코더
- License
- Apache 2.0 라이선스
- 자세히 알아보기
- 다음 리소스를 읽어보세요:
pixtral-12b
Pixtral 12B 은 Mistral AI 이 개발한 멀티모달 모델입니다. pixtral-12b 의 기초 모델은 자연스러운 이미지와 문서를 모두 이해할 수 있도록 훈련되어 있으며, 자연스러운 해상도와 종횡비로 이미지를 처리할 수 있어 이미지 처리에 사용되는 토큰 수에 유연성을 제공합니다. 기초 모델은 긴 컨텍스트 창에서 여러 이미지를 지원합니다. 이 모델은 이미지 입력, 텍스트 출력 멀티모달 작업에 효과적이며 지시 사항을 따르는 데 탁월합니다.
- 사용
- 차트와 그림의 이해, 문서 질문에 대한 답변, 다중 모드 추론, 지시 사항 따르기.
- 크기
- 120억 개의 매개변수
- API 가격 책정 계층
- 클래스 9. 가격 책정에 대한 자세한 내용은 표 3을 참조하세요.
가용성
- 사용해 보기
- 토큰 한도
컨텍스트 창 길이(입력 + 출력): 128,000
요청당 재단 모델에서 생성되는 토큰을 의미하는 최대 신규 토큰은 8,192개로 제한됩니다.
- 지원되는 자연어
영어
- 인스트럭션 튜닝 정보
pixtral-12b 모델은 인터리브 이미지 및 텍스트 데이터로 학습되며, 처음부터 4억 개의 파라미터 비전 인코더가 학습된 미스트랄 네모(Mistral Nemo) 모델을 기반으로 합니다.
- 모델 아키텍처
디코더 전용
- License
- 자세히 알아보기
다음 리소스를 읽어보세요:
더 이상 사용되지 않는 기초 모델은 더 이상 사용되지 않는다는 경고 아이콘으로 강조 표시됩니다 . 기초 모델 철회 세부 사항을 포함하여 사용 중단에 대한 자세한 내용은 기초 모델 수명 주기를 참조하십시오.
자세히 알아보기
상위 주제: 지원되는 기초 모델