The foundation models in watsonx.ai support a range of use cases for both natural languages and programming languages. これらのモデルができるタスクの種類を確認するには、プロンプトのサンプルを確認し、試してみてください。
allam-1-13b-instruct
Copy link to section
The allam-1-13b-instruct foundation model is a bilingual large language model for Arabic and English provided by the National Center for Artificial Intelligence and supported by the Saudi Authority for Data and Artificial Intelligence that is fine-tuned to support conversational tasks. ALLaM シリーズは、アラビア語の言語技術を向上させるために設計された強力な言語モデルのコレクションです。 これらのモデルは、 Llama-2 の重みで初期化され、アラビア語と英語の両方でトレーニングを受ける。
allam-1-13b-instruct is based on the Allam-13b-base model, which is a foundation model that is pre-trained on a total of 3 trillion tokens in English and Arabic, including the tokens seen from its initialization. アラビア語データセットには、クリーニングと重複排除を行った後のトークンが5,000億個含まれている。 追加データは、オープンソースのコレクションとウェブクロールから収集される。 The allam-1-13b-instruct foundation model is fine-tuned with a curated set of 4 million Arabic and 6 million English prompt-and-response pairs.
The DeepSeek-R1 models are trained by using large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step. その後のRLとSFTの段階では、推論パターンを改善し、モデルを人間の好みに合わせることを目指します。 DeepSeek-R1-Distill models are fine-tuned based on open-source models, using samples generated by DeepSeek-R1.
elyza-japanese-llama-2-7b-instruct モデルはELYZA, Inc.が Hugging Face で提供しています。 The elyza-japanese-llama-2-7b-instruct foundation model is a version of the Llama 2 model from Meta that is trained to understand and generate Japanese text. このモデルは、ユーザーの指示に従う様々なタスクを解決したり、対話に参加したりするために微調整されている。
flan-t5-xxl-11b モデルは、 Google が Hugging Face で提供しています。 このモデルは、事前に学習されたテキストからテキストへの転送変換器T5モデルに基づいており、より優れた「zero-」と「few-shot性能を達成するために命令の微調整方法を使用している。 モデルはまた、推論タスクを実行する能力を向上させるために、思考の連鎖データを使って微調整される。
flan-ul2-20b モデルは、 Google が Hugging Face で提供しています。 このモデルはUnifying Language Learning ParadigmsUL2)を用いて学習された。 このモデルは、言語生成、言語理解、テキスト分類、質問応答、常識的推論、長文推論、構造化知識接地、情報検索、文脈内学習、「zero-shotプロンプト、ワンショットプロンプトに最適化されている。
Jais-13b-chat is based on the Jais-13b model, which is a foundation model that is trained on 116 billion Arabic tokens and 279 billion English tokens. Jais-13b-chat 400万のアラビア語と600万の英語の即答対話型ペアの厳選されたセットで微調整されています。
Meta Llama 3.3多言語大規模言語モデル(LLM)は、700億のパラメータを持つ事前学習および命令チューニングされた生成モデル(テキストイン/テキストアウト)です。
The llama-3-3-70b-instruct is a revision of the popular Llama 3.1 70B Instruct foundation model. The Llama 3.3 foundation model is better at coding, step-by-step reasoning, and tool-calling. Llama 3.3モデルは小型ながら、 Llama 3.1 405b モデルと同等の性能を発揮するため、開発者にとって最適な選択肢となります。
Meta Llama 3.2の基礎モデルのコレクションは'Metaによって提供される。 llama-3-2-11b-vision-instructと llama-3-2-90b-vision-instructモデルは、文書レベルの理解、チャートやグラフの解釈、画像のキャプションのような画像イン、テキストアウトのユースケースのために構築されています。
Llama 3.2 Visionモデルは、コアとなる大規模言語モデルの重みとは別に学習された画像推論アダプターの重みを使用する。 この分離はモデルの一般的な知識を保持し、事前学習時と実行時の両方でモデルをより効率的にする。 The Llama 3.2 Vision models were pretrained on 6 billion image-and-text pairs, which required far fewer compute resources than were needed to pretrain the Llama 3.1 70B foundation model alone. Llama 3.2モデルも、入力が必要な場合にのみ画像推論用の計算リソースをより多く利用できるため、効率的に動作します。
Meta Llama 3.2の基礎モデルのコレクションは'Metaによって提供される。 llama-guard-3-11b-visionは、テキストのみのLlama-Guard-3モデルをマルチモーダルに進化させたものである。 このモデルは、ユーザー入力(プロンプト分類)に含まれる画像やテキストコンテンツを安全か安全でないかの分類に使用できる。
Meta Llama 3.1の基礎モデルのコレクションは'Metaによって提供される。 The Llama 3.1 base foundation model is a multilingual model that supports tool use, and has overall stronger reasoning capabilities.
Meta Llama 3.1の基礎モデルのコレクションは'Metaによって提供される。 Llama 3.1の基礎モデルは、多言語対話のユースケースに最適化された、事前学習とインストラクションチューニングが施されたテキストのみの生成モデルです。 このモデルは、人間のフィードバックによる教師ありの微調整と強化学習を使って、人間の「親切」と「安全」の嗜好に合わせる。
The llama-3-405b-instruct model is Meta's largest open-sourced foundation model to date. 基盤モデル、合成データ生成器、学習後のデータランキング判定器、またはより推論に適した派生モデルの専門能力を向上させるモデル教師/監督者としても使用できます。
The Meta Llama 3 family of foundation models are accessible, open large language models that are built with Meta Llama 3 and provided by Meta on Hugging Face. Llama 3の基礎モデルは、様々なユースケースをサポートできるように細かく調整された言語モデルです。
Llama 3 features improvements in post-training procedures that reduce false refusal rates, improve alignment, and increase diversity in the foundation model output. その結果、推論能力、コード生成能力、命令追従能力が向上した。 Llama 3 より多くのトレーニングトークン( )があり、その結果、言語理解力が向上します。 15T
Mistral Large 2 Mistral AI によって開発された大規模言語モデルのファミリーです。 The mistral-large foundation model is fluent in and understands the grammar and cultural context of English, French, Spanish, German, and Italian. 基盤モデル、数十の他の言語も理解できます。 このモデルには大きなコンテキスト・ウィンドウがあり、検索支援生成(RAG)のユースケースで送信するプロンプトに、大きな文書をコンテキスト情報として追加することができる。 The mistral-large foundation model is effective at programmatic tasks, such as generating, reviewing, and commenting on code, function calling, and can generate results in JSON format.
The mistral-large-instruct-2411 foundation model from Mistral AI and belongs to the Mistral Large 2 family of models. このモデルは、推論、知識、コーディングに特化しています。 The model extends the capabilities of the Mistral-Large-Instruct-2407 foundation model to include better handling of long prompt contexts, system prompt instructions, and function calling requests.
使用方法
The mistral-large-instruct-2411 foundation model is multilingual, proficient in coding, agent-centric, and adheres to system prompts to aid in retrieval-augmented generation tasks and other use cases where prompts with large context need to be handled.
The mistral-large-instruct-2411 foundation model has been trained on over 80 programming languages including Python, Java, C, C++, JavaScript, Bash, Swift, and Fortran.
インストラクション・チューニング情報
The mistral-large-instruct-2411 foundation model extends the Mistral-Large-Instruct-2407 foundation model from Mistral AI. トレーニングにより、モデルの推論能力が向上した。 また、モデルをより慎重かつ的確な反応ができるように微調整し、解決策を見つけられない場合や、確信を持って回答できるだけの十分な情報がない場合を認識できるようにすることで、 ハルシネーションを減らすことにも重点的に取り組みました。
The mistral-nemo-instruct-2407 foundation model from Mistral AI was built in collaboration with NVIDIA. Mistral NeMo、推論、世界知識、コーディングの正確さにおいて、特にこのサイズのモデルとしては非常に優れた結果を出している。
Mistral Small 3 is a cost-efficient, fast, and reliable foundation model developed by Mistral AI. The mistral-small-24b-instruct-2501 model is instruction fine-tuned and performs well in tasks that require some reasoning ability, such as data extraction, summarizing a document, or writing descriptions. エージェンシーアプリケーションをサポートするように構築されており、システムプロンプトへの準拠と、JSON出力生成機能付きのコール機能を備えています。
The mistral-small-24b-instruct-2501 foundation model is pre-trained on diverse datasets like text, codebases, and mathematical data from various domains.
The mixtral-8x7b-base foundation model is provided by Mistral AI. The mixtral-8x7b-base foundation model is a generative sparse mixture-of-experts network that groups the model parameters, and then for each token chooses a subset of groups (referred to as 専門家) to process the token. その結果、各トークンは470億のパラメーターにアクセスできるが、推論に使用するアクティブパラメーターは130億にとどまり、コストとレイテンシーが削減される。
The mixtral-8x7b-instruct-v01 foundation model is provided by Mistral AI. The mixtral-8x7b-instruct-v01 foundation model is a pretrained generative sparse mixture-of-experts network that groups the model parameters, and then for each token chooses a subset of groups (referred to as 専門家) to process the token. その結果、各トークンは470億のパラメーターにアクセスできるが、推論に使用するアクティブパラメーターは130億にとどまり、コストとレイテンシーが削減される。
Pixtral 12B は、 Mistral AI によって開発されたマルチモーダルモデルです。 The pixtral-12b foundation model is trained to understand both natural images and documents and is able to ingest images at their natural resolution and aspect ratio, providing flexibility on the number of tokens used to process an image. 基盤モデル、長い文脈ウィンドウで複数のイメージをサポートします。 このモデルは、イメージ・イン、テキスト・アウトのマルチモーダルなタスクに効果的で、インストラクション・フォローに優れている。