Rechenressourcenoptionen für den Notebookeditor in Projekten
Wenn Sie ein Notebook im Notebook-Editor in einem Projekt ausführen, wählen Sie eine Umgebungsvorlage aus, die die Rechenressourcen für die Laufzeitumgebung definiert. Die Umgebungsvorlage gibt Typ, Größe und Leistung der Hardwarekonfiguration sowie die Softwarekonfiguration an. Für Notebooks enthalten Umgebungsvorlagen eine unterstützte Sprache von Python und R.
- Umgebungstypen
- Laufzeitreleases
- CPU-Umgebungsvorlagen
- Spark-Umgebungsvorlagen
- GPU-Umgebungsvorlagen
- Standardhardware-Spezifikationen für Scoring-Modelle mit Watson Machine Learning
- Datendateien in Notizbuchumgebungen
- Rechenleistungsnutzung nach Service
- Laufzeitbereich
- Umgebungen ändern
Umgebungstypen
Sie können diese Typen von Umgebungen für das Ausführen des Notizbuchs verwenden:
- Anaconda-CPU-Umgebungen für Standardworkloads.
- Spark-Umgebungen für die Parallelverarbeitung, die von der Plattform oder von anderen Services bereitgestellt wird.
- GPU-Umgebungen für rechenintensive Modelle für maschinelles Lernen.
Die meisten Umgebungstypen für Notebooks verfügen über Standardumgebungsvorlagen, sodass Sie schnell beginnen können. Andernfalls können Sie angepasste Umgebungsvorlagen erstellen.
Umgebungstyp | Standardvorlagen | Benutzerdefinierte Vorlagen |
---|---|---|
Anaconda-CPU | ✓ | ✓ |
Spark-Cluster | ✓ | ✓ |
GPU | ✓ | ✓ |
Laufzeitreleases
Die Standardumgebungen für Notebooks werden als Affiliate eines Laufzeitrelease mit dem Präfix Runtime
, gefolgt vom Releasejahr und der Releaseversion, hinzugefügt.
Ein Laufzeitrelease gibt eine Liste wichtiger Data-Science-Bibliotheken und eine Sprachversion an, beispielsweise Python 3.10. Alle Umgebungen eines Laufzeitrelease basieren auf den im Release definierten Bibliotheksversionen und stellen so die konsistente Verwendung von Data-Science-Bibliotheken in allen Data-Science-Anwendungen sicher.
Das Release Runtime 22.1
ist nur für Python 3.9 verfügbar. Das Release Runtime 22.2
ist für Python 3.10 und R 4.2verfügbar.
Während ein Laufzeitrelease unterstützt wird, aktualisiert IBM die Bibliotheksversionen, um Sicherheitsanforderungen zu erfüllen. Beachten Sie, dass diese Aktualisierungen die <Major>.<Minor>
-Versionen der Bibliotheken nicht ändern, sondern nur die <Patch>
-Versionen. Dadurch wird sichergestellt, dass Ihre Notebook-Assets weiterhin ausgeführt werden.
Bibliotheken in den 22.x Runtime-Releases
Die 22.x -Laufzeitreleases enthalten die folgenden gängigen Data-Science-Bibliothekspakete für Python und R.
Beachten Sie, dass die Laufzeit 22.1 unter Python 3.9 veraltet ist. Sie sollten mit der Verwendung der Laufzeit 22.2 unter Python 3.10 beginnen.
Laufzeitreleases von Python 3.10 und 3.9 zum Auflisten von Bibliotheken und ihrer Versionen:
Bibliothek | Laufzeit 22.2 in Python 3.10 | Laufzeit 22.1 in Python 3.9 |
---|---|---|
Dali | 1.15 | 1.9 |
Horovod | 0.25 | 0.23 |
Keras | 2.9 | 2.7 |
Lale | 0.6 | 0.6 |
LightGBM | 3.3 | 3.3 |
NumPy | 1.23 | 1.20 |
ONNX | 1.12 | 1.10 |
ONNX-Laufzeit | 1.12 | 1.10 |
OpenCV | 4.6 | 4.5 |
pandas | 1.4 | 1.3 |
PyArrow | 8.0 | 5.0 |
PyTorch | 1.12 | 1.10 |
scikit-learn | 1.1 | 1.0 |
SciPy | 1.8 | 1.7 |
SnapML | 1.8 | 1.8 |
TensorBoard | 2.9 | 2.7 |
TensorFlow | 2.9 | 2.7 |
XGBoost | 1.6 | 1.5 |
Laufzeitreleases 22.2 für R 4.2 zum Auflisten von Bibliotheken und deren Versionen:
Bibliothek | Laufzeit 22.2 für R 4.2 |
---|---|
Pfeil | 8.0 |
Auto | 3.0 |
Winkelzeichen | 6.0 |
Katoole | 1.18 |
Prognose | 8.16 |
ggplot2 | 3.3 |
Glmnet | 4.1 |
Hmisc | 4.7 |
Keras | 2.9 |
lme4 | 1.1 |
mvtnorm | 1.1 |
Pandoc | 2.12 |
Psych | 2.2 |
Python | 3.10 |
Randomforest | 4.7 |
Retikulieren | 1.25 |
Sandwich | 3.0 |
scikit-learn | 1.1 |
räumlich | 7.3 |
TensorFlow | 2.9 |
Tidyr | 1.2 |
XGBoost | 1.6 |
Die 22.x Runtime-Releases für Python und R enthalten neben den in der Tabelle aufgelisteten Bibliotheken eine große Gruppe weiterer nützlicher Bibliotheken. Um die vollständige Liste anzuzeigen, wählen Sie die Umgebungsvorlage ` Runtime 22.2 on Python 3.10` oder ` Runtime 22.2 on R 4.2` unter ** Templates** auf der Seite ** Environments** auf der Registerkarte ** Manage** Ihres Projekts aus.
CPU-Umgebungsvorlagen
Sie können eine der folgenden Standardvorlagen für CPU-Umgebungen für Notebooks auswählen. Die Standardumgebungsvorlagen werden unter Vorlagen auf der Seite Umgebungen auf der Registerkarte Verwalten Ihres Projekts aufgelistet.
DO
Gibt an, dass die Umgebungsvorlagen die CPLEX- und DOcplex-Bibliotheken enthalten, um Probleme bei der Entscheidungsoptimierung zu modellieren und zu lösen, die die Komplexität überschreiten, die von der Community Edition der Bibliotheken in den anderen Python-Standardumgebungen unterstützt wird. Siehe Decision Optimization-Notebooks.
NLP
Gibt an, dass die Umgebungsvorlagen die Watson Natural Language Processing-Bibliothek mit vorab trainierten Modellen für Sprachverarbeitungstasks enthalten, die Sie für unstrukturierte Daten ausführen können. Siehe Watson Natural Language Processing-Bibliothek verwenden. Diese Standardumgebung sollte groß genug sein, um die vorab trainierten Modelle auszuführen.
~ Gibt an, dass die Umgebungsvorlagen den Watson Studio Professional-Plan erfordern. Siehe Angebotspläne.
# Gibt an, dass sich die Umgebungsvorlage im restriktiven Modus befindet und nicht ausgewählt werden kann, um ein Notebook zu erstellen
Name | Hardwarekonfiguration | CUH-Rate pro Stunde |
---|---|---|
Laufzeit 22.2 für Python 3.10 XXS | 1 vCPU und 4 GB RAM | 0.5 |
Laufzeit 22.2 in Python 3.10 Xs | 2 vCPU und 8 GB RAM | 1 |
Laufzeit 22.2 in Python 3.10 S | 4 vCPU und 16 GB RAM | 2 |
Laufzeit 22.1 in Python 3.9 XXS # | 1 vCPU und 4 GB RAM | 0.5 |
Laufzeit 22.1 auf Python 3.9 XS # | 2 vCPU und 8 GB RAM | 1 |
Laufzeit 22.1 auf Python 3.9 S # | 4 vCPU und 16 GB RAM | 2 |
DO + NLP Runtime 22.2 auf Python 3.10 | 2 vCPU und 8 GB RAM | 6 |
DO + NLP Runtime 22.1 auf Python 3.9 # | 2 vCPU und 8 GB RAM | 6 |
Laufzeit 22.2 unter R 4.2 | 4 vCPU und 16 GB RAM | 2 |
Standard R 3.6 S # | 4 vCPU und 16 GB RAM | 2 |
Standardwert R 3.6 M ~ # | 16 vCPU und 64 GB RAM | 8 |
Sie sollten alle aktiven CPU-Runtimes stoppen, wenn Sie sie nicht mehr benötigen, um zu verhindern, dass zusätzliche Kapazitätseinheitenstunden (CUHs) verbraucht werden. Siehe CPU-Inaktivitätszeitlimit.
Notizbücher und CPU-Umgebungen
Wenn Sie ein Notizbuch im Bearbeitungsmodus in einer CPU-Runtimeumgebung öffnen, stellt genau eine interaktive Sitzung eine Verbindung zu einem Jupyter-Kernel für die Notizbuchsprache und der von Ihnen ausgewählten Umgebungsruntime her. Die Laufzeit wird pro Einzelbenutzer und nicht pro Notebook gestartet. Wenn Sie also ein zweites Notebook mit derselben Umgebungsvorlage in demselben Projekt öffnen, wird ein zweiter Kernel in derselben Laufzeit gestartet. Laufzeitressourcen werden von den Jupyter-Kernels, die Sie in der Laufzeit starten, gemeinsam genutzt. Laufzeitressourcen werden ebenfalls gemeinsam genutzt, wenn die CPU über GPU verfügt.
Wenn Sie die gemeinsame Nutzung von Laufzeiten vermeiden möchten, aber dieselbe Umgebungsschablone für mehrere Notebooks in einem Projekt verwenden wollen, müssen Sie angepasste Umgebungsschablonen mit denselben Spezifikationen erstellen und jedem Notebook eine eigene Schablone zuordnen.
Sie können den Kernel bei Bedarf erneut starten oder eine erneute Verbindung zu ihm herstellen. Wenn Sie einen Kernel erneut starten, wird der Kernel gestoppt und dann in derselben Sitzung wieder gestartet, aber alle Ausführungsergebnisse gehen verloren. Wenn Sie nach einem Verbindungsverlust eine neue Verbindung zu einem Kernel herstellen, wird das Notebook mit derselben Kernelsitzung verbunden und alle vorherigen Ausführungsergebnisse sind verfügbar.
Spark-Umgebungsvorlagen
Sie können eine der folgenden standardmäßigen Spark-Umgebungsvorlagen für Notebooks auswählen. Die Standardumgebungsvorlagen werden unter Vorlagen auf der Seite Umgebungen auf der Registerkarte Verwalten Ihres Projekts aufgelistet.
* Gibt an, dass die Umgebung Bibliotheken aus Runtime 22.1
enthält.
# Gibt an, dass sich die Umgebungsvorlage im restriktiven Modus befindet und nicht ausgewählt werden kann, um ein Notebook zu erstellen
Name | Hardwarekonfiguration | CUH-Rate pro Stunde |
---|---|---|
Standard Spark 3.3 & Python 3.9 * | Jeweils 2 Executors: 1 vCPU und 4 GB RAM; -Treiber: 1 vCPU und 4 GB RAM |
1 |
Standard Spark 3.3 & R 3.6 # | Jeweils 2 Executors: 1 vCPU und 4 GB RAM; -Treiber: 1 vCPU und 4 GB RAM |
1 |
Standard Spark 3.3 & R 4.2 | Jeweils 2 Executors: 1 vCPU und 4 GB RAM; -Treiber: 1 vCPU und 4 GB RAM |
1 |
Sie sollten alle aktiven Spark-Laufzeiten stoppen, wenn Sie sie nicht mehr benötigen, um zusätzlichen Verbrauch von Kapazitätseinheiten (CUHs) zu vermeiden. Siehe Spark-Inaktivitätszeitlimit.
Große Spark-Umgebungen
Wenn Sie über den Watson Studio Professional-Plan verfügen, können Sie angepasste Umgebungsvorlagen für größere Spark-Umgebungen erstellen.
Professionelle Planbenutzer können bis zu 35 Executors haben und können aus den folgenden Optionen für Treiber und Executor wählen:
Hardwarekonfiguration |
---|
1 vCPU und 4 GB RAM |
1 vCPU und 8 GB RAM |
1 vCPU und 12 GB RAM |
Die CUH-Rate pro Stunde erhöht sich für jede hinzugefügte vCPU um 0,5. Beispiel: 1x Driver: 3vCPU with 12GB of RAM
und 4x Executors: 2vCPU with 8GB of RAM
sind (3 + (4 * 2)) = 11 vCPUs
und 5.5 CUH
.
Notebooks und Spark-Umgebungen
Sie können dieselbe Spark-Umgebungsvorlage für mehrere Notebooks auswählen. Jedes Notizbuch, das dieser Umgebung zugeordnet ist, verfügt über einen eigenen dedizierten Spark-Cluster und es werden keine Ressourcen gemeinsam genutzt.
Wenn Sie eine Spark-Umgebung starten, werden zusätzliche Ressourcen für den Jupyter Enterprise Gateway, den Spark Master und die Spark Worker Daemons benötigt. Diese zusätzlichen Ressourcen betragen 1 vCPU und 2 GB RAM für den Treiber und 1 GB RAM für jeden Executor. Sie müssen diese zusätzlichen Ressourcen berücksichtigen, wenn Sie die Hardware-Größe einer Spark-Umgebung auswählen. Wenn Sie beispielsweise ein Notebook erstellen und Default Spark 3.3 & Python 3.9
auswählen, verbraucht der Spark-Cluster 3 vCPUs und 12 GB RAM, aber da 1 vCPU und 4 GB RAM für die zusätzlichen Ressourcen erforderlich sind, sind die für das Notebook verbleibenden Ressourcen 2 vCPU und 8 GB RAM.
Dateisystem in einem Spark-Cluster
Wenn Sie Dateien zwischen Executors und dem Treiber oder Kernel eines Spark-Clusters gemeinsam nutzen möchten, können Sie das gemeinsam genutzte Dateisystem unter /home/spark/shared
verwenden.
Wenn Sie eigene angepasste Bibliotheken verwenden wollen, können Sie sie unter /home/spark/shared/user-libs/
speichern. Es gibt vier Unterverzeichnisse unter /home/spark/shared/user-libs/
, die vorkonfiguriert sind, um für Python -und R-oder Java-Laufzeiten verfügbar zu machen.
In den folgenden Tabellen werden die vorkonfigurierten Unterverzeichnisse aufgelistet, in denen Sie angepasste Bibliotheken hinzufügen können.
Verzeichnis | Typ der Bibliothek |
---|---|
/home/spark/shared/user-libs/python3/ |
Python 3-Bibliotheken |
/home/spark/shared/user-libs/R/ |
R-Pakete |
/home/spark/shared/user-libs/spark2/ |
Java-JAR-Dateien |
Gehen Sie wie folgt vor, um Bibliotheken für Spark-Treiber und Executors gemeinsam zu nutzen:
- Laden Sie die angepassten Bibliotheken oder JAR-Dateien in das entsprechende vorkonfigurierte Verzeichnis herunter.
- Starten Sie den Kernel über das Notebookmenü erneut, indem Sie auf Kernel > Kernel erneut starten klicken. Dadurch werden die angepassten Bibliotheken bzw. JAR-Dateien in Spark geladen.
Beachten Sie, dass diese Bibliotheken nicht persistent sind. Wenn Sie die Umgebungslaufzeit stoppen und später erneut starten, müssen Sie die Bibliotheken erneut laden.
GPU-Umgebungsvorlagen
Sie können die folgende GPU-Umgebungsvorlage für Notebooks auswählen. Die Umgebungsvorlagen werden unter Vorlagen auf der Seite Umgebungen auf der Registerkarte Verwalten Ihres Projekts aufgelistet.
Die Namen der GPU-Umgebungsvorlagen geben die Akzeleratorleistung an. Die GPU-Umgebungsvorlagen enthalten die Watson Natural Language Processing-Bibliothek mit vorab trainierten Modellen für Sprachverarbeitungstasks, die Sie für unstrukturierte Daten ausführen können. Siehe Watson Natural Language Processing-Bibliothek verwenden.
~ Gibt an, dass die Umgebungsvorlage den Watson Studio Professional-Plan erfordert. Siehe Angebotspläne.
* Gibt an, dass die Umgebungsvorlage veraltet ist.
Name | Hardwarekonfiguration | CUH-Rate pro Stunde |
---|---|---|
GPU V100 Laufzeit 22.2 unter Python 3.10 ~ | 40 vCPU + 172 GB RAM + 1 NVIDIA TESLA V100 (1 GPU) | 68 |
GPU 2xV100 Runtime 22.2 on Python 3.10 ~ | 80 vCPU und 344 GB RAM + 2 NVIDIA TESLA V100 (2 GPUs) | 136 |
GPU V100 Runtime 22.1 on Python 3.9 ~ * | 40 vCPU + 172 GB RAM + 1 NVIDIA TESLA V100 (1 GPU) | 68 |
Sie sollten alle aktiven GPU-Laufzeiten stoppen, wenn Sie sie nicht mehr benötigen, um den Verbrauch zusätzlicher Kapazitätseinheiten (CUHs) zu vermeiden. Siehe GPU-Inaktivitätszeitlimit.
Notebooks und GPU-Umgebungen
GPU-Umgebungen für Notebooks sind nur für die Region Dallas des IBM Cloud-Service verfügbar.
Sie können dieselbe Python -und GPU-Umgebungsvorlage für mehrere Notebooks in einem Projekt auswählen. In diesem Fall wird jeder Notebook-Kernel in derselben Laufzeitinstanz ausgeführt, und die Ressourcen werden gemeinsam genutzt. Um die gemeinsame Nutzung von Laufzeitressourcen zu vermeiden, erstellen Sie mehrere angepasste Umgebungsvorlagen mit denselben Spezifikationen und ordnen jedem Notebook eine eigene Vorlage zu.
Standardhardware-Spezifikationen für Scoring-Modelle mit Watson Machine Learning
Wenn Sie die Watson Machine Learning-API in einem Notebook aufrufen, verbrauchen Sie Rechenressourcen aus dem Watson Machine Learning-Service sowie die Rechenressourcen für den Notebook-Kernel.
Sie können eine beliebige der folgenden Hardwarespezifikationen auswählen, wenn Sie eine Verbindung zu Watson Machine Learning herstellen und eine Implementierung erstellen.
Kapazitätsgröße | Hardwarekonfiguration | CUH-Rate pro Stunde |
---|---|---|
Besonders klein | 1x4 = 1 vCPU und 4 GB RAM | 0.5 |
Klein | 2x8 = 2 vCPU und 8 GB RAM | 1 |
Mittel | 4x16 = 4 vCPU und 16 GB RAM | 2 |
Groß | 8x32 = 8 vCPU und 32 GB RAM | 4 |
Datendateien in Notizbuchumgebungen
Wenn Sie mit großen Datasets arbeiten, sollten Sie die Datasets in IBM Cloud Object Storage für Ihr Projekt in kleineren Chunks speichern und die Daten im Notebook in Chunks verarbeiten. Alternativ sollten Sie das Notebook in einer Spark-Umgebung ausführen.
Beachten Sie, dass das Dateisystem jeder Laufzeit nicht persistent ist und in den Umgebungen nicht gemeinsam genutzt werden kann. Wenn Sie Dateien in Watson Studio als persistent definieren wollen, sollten Sie IBM Cloud Object Storage verwenden. Die einfachste Möglichkeit, IBM Cloud Object Storage in Notebooks in Projekten zu verwenden, ist die Nutzung des project-lib
-Pakets für Python oder des project-lib
-Pakets für R.
Rechenleistungsnutzung nach Service
Die Notebook-Laufzeiten nutzen Rechenressourcen wie CUH aus Watson Studio, während Standardumgebungen oder angepasste Umgebungen ausgeführt werden. Sie können die Watson Studio -CUH-Nutzung im Projekt auf der Seite Ressourcennutzung auf der Registerkarte Verwalten des Projekts überwachen.
Notebooks können auch CUH aus dem Watson Machine Learning-Service verbrauchen, wenn das Notebook Watson Machine Learning aufruft, um ein Modellscoring durchzuführen. Sie können den monatlichen Gesamtverbrauch von CUH für den Service Watson Machine Learning auf der Seite Ressourcennutzung auf der Registerkarte Verwalten des Projekts überwachen.
CUH-Verbrauch für Watson Machine Learning in einem Notebook verfolgen
Führen Sie den folgenden Code im Notebook aus, um die von einem Notebook verbrauchten Capacity-Unit-Stunden (Capacity Unit Hour, CHU) zu berechnen:
CP = client.service_instance.get_details()
CUH = CUH["entity"]["usage"]["capacity_units"]["current"]/(3600*1000)
print(CUH)
Beispiel:
'capacity_units': {'current': 19773430}
19773430/(3600*1000)
Rückgabe: 5,49 CUH
Details finden Sie im Abschnitt zu den Serviceinstanzen in der IBM Watson Machine Learning-API-Dokumentation.
Laufzeitbereich
Umgebungslaufzeiten gelten immer für eine Umgebungsvorlage und einen Benutzer innerhalb eines Projekts. Wenn verschiedene Benutzer in einem Projekt mit derselben Umgebung arbeiten, erhält jeder Benutzer eine separate Laufzeit.
Wenn Sie eine Version eines Notebooks als geplanten Job ausführen lassen, startet jeder geplante Job immer in einer dedizierten Laufzeit. Die Laufzeit wird bei Beendigung des Jobs gestoppt.
Umgebung eines Notebooks ändern
Sie können Umgebungen aus verschiedenen Gründen wechseln, zum Beispiel:
- Eine Umgebung mit mehr Verarbeitungsleistung oder mehr RAM auswählen.
- Von der Verwendung einer Umgebung ohne Spark zu einer Spark-Umgebung wechseln.
Sie können nur die Umgebung eines freigegebenen Notebooks ändern. Sie können die Umgebung ändern:
Öffnen Sie das Notebook im Bearbeitungsmodus und gehen Sie wie folgt vor:
- Speichern Sie die Änderungen im Notebook.
- Klicken Sie auf das Informationssymbol des Notebooks (
) in der Symbolleiste des Notebooks und klicken Sie danach auf Environment.
- Wählen Sie in der Liste eine andere Vorlage mit Rechenleistung und Speicherkapazität aus.
- Wählen Sie Umgebung ändern aus. Dadurch wird die aktive Laufzeit gestoppt und die neu ausgewählte Umgebung gestartet.
Gehen Sie auf der Seite Assets Ihres Projekts wie folgt vor:
- Wählen Sie das Notebook im Abschnitt Notebooks aus, klicken Sie auf Aktionen > Umgebung ändern und wählen Sie eine andere Umgebung aus. Der Kern muss gestoppt werden, bevor Sie die Umgebung ändern können. Diese neue Laufzeitumgebung wird instanziiert, wenn das Notebook das nächste Mal zur Bearbeitung geöffnet wird.
Im Notebook-Job durch Bearbeiten der Jobschablone. Siehe Jobeinstellungen bearbeiten.
Nächste Schritte
Weitere Informationen
Übergeordnetes Thema: Ressourcen für Tools berechnen