Watson Speech services on Cloud Pak for Data as a Service

最終更新: 2025年2月21日

説明

Watson Speech services は音声認識と音声合成の機能を提供します：

Watson Speech to Text 音声から文字に書き起こす。このサービスは機械学習を活用して、文法、言語構造、および音声シグナルの構成に関する知識を組み合わせることで、人間の音声を正確に書き起こします。このサービスは繰り返し更新されて、受け取る音声データが増えるほど書き起こし機能が向上します。このサービスは、コール・センター、カスタム・ケア、エージェント・アシスタンス、および類似のソリューションなどのユース・ケースで高品質の音声書き起こしを抽出する必要があるアプリケーションに理想的です。
サービスの詳細については、「 Watson Speech to Text」についてを参照のこと。
Watson Text to Speech 文章から自然な音声を合成する。このサービスでは、遅延を最小限に抑えて、結果がストリーミングでクライアントに戻されます。このサービスは、画面のない音声主体のアプリケーション (優先される出力方式が音声であるアプリケーション) に適しています。
サービスの詳細については、「 Watson Text to Speech」についてを参照のこと。

言語やアプリケーションのニーズに合わせてカスタマイズできる。どちらのサービスも、 HTTPと WebSocketのプログラミング・インターフェースを提供しており、音声を生成または受信するあらゆるアプリケーションに適している。

このサービスは、 Cloud Pak for Data as a Service の外側の IBM Cloud で実行されるツールやその他のタイプのインターフェースを追加し、ノートブックで実行できる API を提供する。

表 1. 関連サービス。以下の関連サービスは、多くの場合、このサービスと一緒に使用され、補完機能を提供しますが、必須ではありません。
サービス	機能
watsonx Assistant	独自のブランドのアシスタントを任意のデバイス、アプリケーション、またはチャネル内に構築します。実装したユーザー・インターフェースを介して、ユーザーはアプリケーションと対話します。