Jupyterノートブックとスクリプトの使用計画を立てるには、まず、あなたが持っている選択肢、それらの選択肢が持つ意味、そしてそれらの選択肢が実装タスクの順序にどのように影響するかを理解する。
ノートブックやスクリプトに関連するほとんどのタスクは、分析プロジェクトのEditorまたはAdminロールで実行できます。
ノートブックおよびスクリプトでの作業を開始する前に、以下の質問を検討してください。ほとんどのタスクは特定の順序で実行する必要があります。
- どのプログラミング言語で作業しますか?
- ノートは何をしますか?
- どのライブラリーを使用しますか?
- Cloud Pak for Data as a Serviceでノートブックまたはスクリプトをどのように使用できますか?
Jupyterノートブックまたはスクリプトを使用する計画を作成するには、次のどのタスクを完了する必要があるかを決定します。
タスク | 必須? | タイミング |
---|---|---|
プロジェクトの作成 | はい | これが最初のタスクでなければなりません |
プロジェクトへのデータ資産の追加 | はい | ノートブックの作成を開始する前に |
プログラミング言語の選択 | はい | ツールを選択する前に |
ツールの選択 | はい | 言語を選択した後 |
ライブラリー・パッケージの確認 | はい | ランタイム環境を選択する前に |
適切なランタイム環境の選択 | はい | 開発環境を開く前に |
ノートブックとスクリプトのライフサイクルの管理 | いいえ | ノートブックまたはスクリプトの準備ができたら、以下のようにします。 |
作成後のノートブックおよびスクリプトの使用 | いいえ | ノートブックの準備ができたら |
プロジェクトの作成
ノートブックで作業を開始する前に、プロジェクトを作成する必要があります。
プロジェクト 空のプロジェクトを作成することも、ファイルから作成することも、URL から作成することもできます。 このプロジェクトの場合:
- Jupyter Notebook および RStudio を使用できます。
- ノートブックは、プロジェクト内の資産です。
- ノートブック・コラボレーションは、プロジェクト・レベルでのユーザーによるロックに基づいています。
- R スクリプトと Shiny アプリはプロジェクト内の資産ではありません。
- R スクリプトや Shiny アプリでのコラボレーションはありません。
プログラミング言語の選択
以下の言語で作業することを選択できます。
- ノートブック
- Python および R
- スクリプト
- R スクリプトと R Shiny アプリ
ツールの選択
Cloud Pak for Data as a Serviceでは、以下のツールでノートブックとスクリプトを操作できます。
- Jupyter ノートブック・エディター
- Jupyter Notebook エディターで、 Python または R ノートブックを作成できます。 ノートブックは、プロジェクト内の資産です。 コラボレーションはプロジェクト・レベルでのみ行われます。 ノートブックは、開いたときにユーザーによってロックされ、同じユーザーまたはプロジェクト管理者のみがアンロックできます。
- RStudio
- RStudio では、R スクリプトと Shiny アプリを作成できます。 R スクリプトはプロジェクト内の資産ではありません。これは、プロジェクト・レベルでのコラボレーションがないことを意味します。
ライブラリー・パッケージの検査
ランタイム環境でノートブックを開くと、多数のプリインストール済みデータ・サイエンス・ライブラリー・パッケージにアクセスできます。 多くの環境には、以下のような追加料金なしで IBM によって提供されるライブラリーも含まれています。
- Python 環境の Watson Natural Language Processing ライブラリー
- プロジェクト資産へのアクセスに役立つライブラリー
- Spark 環境での時系列分析または地理空間分析のためのライブラリー
ライブラリー・パッケージおよび環境テンプレートに含まれるバージョンのリストについては、プロジェクトの 「環境」 ページの 「管理」 タブから 「テンプレート」 ページでテンプレートを選択します。
テンプレートにライブラリーがない場合は、以下のようにしてライブラリーを追加できます。
- ノートブックまたはスクリプトを使用する
- ご使用の環境に適したパッケージ・インストール・コマンドを使用できます。 例えば、 Python ノートブックでは、
mamba
、conda
、またはpip
を使用できます。 - カスタム環境テンプレートを作成する
- カスタム・テンプレートを作成するときに、ソフトウェア・カスタマイズを作成し、組み込むライブラリーを追加することができます。 詳しくは、 環境テンプレートのカスタマイズを参照してください。
ランタイム環境の選択
ノートブックの計算環境の選択は、処理するデータの量とデータ分析プロセスの複雑さによって異なります。
watsonx.aiStudio には、ハードウェアのサイズやソフトウェアの構成が異なる多くのデフォルト環境テンプレートが用意されており、独自のテンプレートを作成することなく、すぐに使い始めることができます。 組み込まれているこれらのテンプレートは、プロジェクトの 「環境」 ページの 「管理」 タブから 「テンプレート」 ページにリストされます。 組み込まれている環境について詳しくは、 環境を参照してください。
使用可能なテンプレートがニーズに合わない場合は、カスタム・テンプレートを作成して、ハードウェア・サイズとソフトウェア構成を決定できます。 詳しくは、 環境テンプレートのカスタマイズを参照してください。
データを処理する
ノートブックでデータを操作するには、以下のようにします。
- データをプロジェクトに追加します。これにより、データがプロジェクト資産に変換されます。 プロジェクトにデータを追加するさまざまな方法については、 プロジェクトへのデータの追加 を参照してください。
- 生成されたコードを使用して、資産からノートブック内のデータ構造にデータをロードします。 サポートされるデータ・タイプのリストについては、 データ・ロード・サポートを参照してください。
- データ・ソースがプロジェクト資産として追加されていない場合、または生成されたコードを追加するためのサポートがプロジェクト資産で使用できない場合は、データをロードする独自のコードを作成します。
ノートブックとスクリプトのライフサイクルの管理
ツールでノートブックを作成してテストした後、以下を行うことができます。
- 他のカタログ・メンバーがプロジェクトでノートブックを使用できるように、カタログに公開します。 プロジェクトからカタログへの資産の公開を参照してください。
- watsonx.aiStudio の外部で読み取り専用のコピーを共有することで、プロジェクトの共同作業者でない人もそれを見て使用することができます。 URL を使用したノートブックの共有を参照してください。
- GitHub リポジトリーに公開します。 GitHubでのノートブックの公開を参照してください。
- Gist として公開します。 Gist としてのノートブックの公開を参照してください。
R スクリプトと Shiny アプリは、プロジェクトの機能を使用して公開したり共有したりすることはできません。
作成後にノートブックおよびスクリプトに使用
Cloud Pak for Data as a Service で作成して使用する準備ができているノートブックのオプションには、以下のものがあります。
プロジェクト内のジョブとして実行する。 プロジェクトでのジョブの作成と管理を参照してください。
パイプラインの一部として実行する。 パイプライン・ノードの構成を参照してください。
ノートブックをジョブとして、またはパイプラインで実行できるようにするには、以下のようにします。
- ユーザーによる対話式入力を必要とするセルがないことを確認してください。
- ログを調べて、進行状況と障害を理解できるだけの十分な詳細情報がノートブックに記録されていることを確認します。
- ノートブックまたはスクリプトで必要な場合 (例えば、入力データ・ファイルやトレーニング実行の回数など) は、コード内の環境変数を使用して構成にアクセスします。
watsonx.aiRuntimePythonクライアントを使用して、モデルを構築、学習、デプロイします。 watsonx.aiランタイムPythonクライアントのサンプルと例をご覧ください。
watsonx.aiRuntime REST API を使用してモデルを構築、学習、デプロイします。
R スクリプトおよび Shiny アプリは、 Cloud Pak for Data as a Serviceの RStudio IDE でのみ作成および使用できます。 R スクリプトまたは R Shiny デプロイメントのジョブは作成できません。
親トピック: ノートブックおよびスクリプト