Sie können Daten in Notebooks integrieren, indem Sie über eine lokale Datei, freie Datasets oder eine Datenquellenverbindung auf die Daten zugreifen. Sie laden diese Daten in eine Datenstruktur oder einen Container im Notebook, zum Beispiel einen pandas.DataFrame, numpy.array, Spark RDD oder Spark DataFrame.
Zum Arbeiten mit Daten in einem Notebook können Sie zwischen den folgenden Optionen wählen:
Option | Empfohlene Methode | Anforderungen | Details zu |
---|---|---|---|
Daten aus einer Datei auf dem lokalen System hinzufügen | Fügen Sie ein Code-Snippet hinzu, das Ihre Daten lädt. | Die Datei muss als Asset in Ihrem Projekt vorhanden sein. | Fügen Sie eine Datei aus Ihrem lokalen System hinzu und Verwenden Sie anschließend ein Code-Snippet, um die Daten zu laden. |
Daten aus einem freien Dataset aus dem Ressourcenhub hinzufügen | Fügen Sie ein Code-Snippet hinzu, das Ihre Daten lädt. | Das Dataset (Datei) muss als Asset in Ihrem Projekt vorhanden sein. | Fügen Sie ein freies Dataset aus dem Ressourcenhub hinzu und Verwenden Sie anschließend ein Code-Snippet zum Laden der Daten . |
Daten über Datenquellenverbindungen laden | Fügen Sie ein Code-Snippet hinzu, das Ihre Daten lädt. | Die Verbindung muss als Asset in Ihrem Projekt vorhanden sein | Fügen Sie eine Verbindung zu Ihrem Projekt hinzu und fügen Sie anschließend ein Code-Snippet hinzu, das die Daten aus Ihrer Datenquellenverbindung lädt |
Programmgesteuerter Zugriff auf Projektassets und Metadaten | ibm-watson-studio-lib verwenden |
Das Datenasset muss in Ihrem Projekt vorhanden sein, | ibm-watson-studio-lib -Bibliothek für die Interaktion mit Datenassets verwenden |
Feature-Store-Daten erstellen und verwenden | assetframe-lib -Bibliotheksfunktionen verwenden |
Das Datenasset muss in Ihrem Projekt vorhanden sein, | Verwenden Sie die assetframe-lib -Bibliothek für Python zum Erstellen und Verwenden von Feature-Store-Daten |
Mit einer API-Funktion oder einem Betriebssystembefehl auf Daten zugreifen | Beispiel: Verwenden Sie wget |
Nicht zutreffend | Mit einer API-Funktion oder einem Betriebssystembefehl auf Daten zugreifen |
Datei aus dem lokalen System hinzufügen
Gehen Sie wie folgt vor, um Ihrem Projekt mithilfe des Jupyterlab Notebook-Editors eine Datei aus Ihrem lokalen System hinzuzufügen:
- Öffnen Sie Ihr Notebook im Bearbeitungsmodus.
- Klicken Sie in der Symbolleiste auf das Symbol Asset in Projekt hochladen und fügen Sie Ihre Datei hinzu.
Dateien aus dem Ressourcenhub laden
Die Datasets im Ressourcenhub enthalten offene Daten. Sehen Sie sich dieses kurze Video an, um zu sehen, wie Sie mit öffentlichen Datasets im Ressourcenhub arbeiten können.
Dieses Video bietet eine visuelle Methode zum Erlernen der Konzepte und Tasks in dieser Dokumentation.
Videomitschrift Zeit Transkription 00:00 Dieses Video zeigt, wie Sie auf öffentliche Datasets in der Galerie Cloud Pak for Data as a Service zugreifen. 00:06 Starten Sie im Ressourcenhub und verwenden Sie die Filter, um nur die Dateien anzuzeigen. 00:13 Hier finden Sie einige umfangreiche Datasets, die Sie in Ihrer Analyse verwenden können. 00:17 Sie können beispielsweise nach "economy" oder "population" oder "weather" oder "jobs" suchen. 00:28 Dies scheint ein interessantes Dataset zu sein. 00:30 Öffnen Sie es und zeigen Sie eine Vorschau der Daten an. 00:34 Hier können Sie das Dataset in Social Media teilen, einen direkten Link zu dem Dataset abrufen oder das Dataset herunterladen. 00:45 Sie können die Datei auch in ein bestimmtes Projekt kopieren. 00:52 Navigieren Sie jetzt zu diesem Projekt. 00:55 Auf der Registerkarte "Assets" sehen Sie, dass das Dataset zum Abschnitt "Datenassets" hinzugefügt wurde. 01:01 Fügen Sie als Nächstes ein neues Notebook hinzu. 01:05 Der Titel für dieses Notebook lautet "Unemployment rates" (Arbeitslosenquote). 01:09 Wählen Sie eine Laufzeitumgebung und eine Sprache aus. 01:14 Wenn Sie bereit sind, erstellen Sie das Notebook. 01:20 Wenn das Notebook geladen wird, greifen Sie auf die Datenquellen zu und suchen Sie die Datei zur Arbeitslosenquote. 01:27 Klicken Sie auf "In Code einfügen" und wählen Sie aus, wie Sie die Daten einfügen möchten. 01:33 Die Auswahlmöglichkeiten in dieser Dropdown-Liste hängen von der Sprache ab, die in diesem Notebook verwendet wird. 01:38 Beachten Sie, dass der eingefügte Code die Berechtigungsnachweise enthält, die Sie zum Lesen der Datendatei aus der Object Storage-Instanz benötigen. 01:45 Wenn Sie den Code ausführen, werden die ersten fünf Zeilen angezeigt. 01:50 Jetzt können Sie mit der Analyse aller umfangreichen Datasets im Ressourcenhub beginnen. 01:56 Weitere Videos finden Sie in der Dokumentation zu Cloud Pak for Data as a Service.
Gehen Sie wie folgt vor, um Ihrem Projekt ein Dataset aus dem Ressourcenhub hinzuzufügen:
Wählen Sie im Navigationsmenü die Option Ressourcendrehscheibe.
Suchen Sie die Karte für das Dataset, das Sie hinzufügen möchten.
Klicken Sie auf Zu Projekt hinzufügen, wählen Sie das Projekt aus und klicken Sie auf Hinzufügen. Durch Klicken auf Projekt anzeigen können Sie die Seite mit der Projektübersicht aufrufen. Das Datenasset wird zur Liste der Datenassets auf der Seite 'Assets' des Projekts hinzugefügt.
Daten aus Dateien laden
Voraussetzungen Die Datei muss als Asset in Ihrem Projekt vorhanden sein. Weitere Informationen finden Sie unter Datei von Ihrem lokalen System hinzufügen oder unter Datei vom Ressourcenhub laden.
Gehen Sie wie folgt vor, um Daten aus einer Projektdatei in Ihr Notebook zu laden:
- Öffnen Sie Ihr Notebook im Bearbeitungsmodus.
- Klicken Sie auf das Symbol für Codeschnipsel , klicken Sie auf Daten lesen und wählen Sie dann die Datendatei aus Ihrem Projekt aus. Wenn Sie Ihre Auswahl ändern möchten, verwenden Sie das Symbol Bearbeiten .
- Wählen Sie in der Dropdown-Liste Laden als die gewünschte Ladeoption aus. Wenn Sie Berechtigungsnachweiseauswählen, werden nur Dateizugriffsberechtigungsnachweise generiert. Details hierzu enthält der Abschnitt Berechtigungsnachweise hinzufügen.
- Klicken Sie auf eine leere Codezelle in Ihrem Notebook und anschließend auf Code in Zelle einfügen , um den generierten Code einzufügen. Alternativ können Sie auf klicken, um den generierten Code in die Zwischenablage zu kopieren, und den Code anschließend in Ihr Notebook einfügen.
Der generierte Code dient als Schnelleinstieg für die Arbeit mit einem Dataset. Überprüfen Sie bei Produktionssystemen sorgfältig den eingefügten Code, um festzustellen, ob Sie eigenen Code schreiben müssen, der Ihren Anforderungen besser entspricht.
Informationen dazu, welche Datenstrukturen für welche Notebooksprache und welches Datenformat generiert werden, finden Sie unter Datenladeunterstützung.
Daten aus Datenquellenverbindungen laden
Voraussetzungen Bevor Sie Daten aus einem IBM Datenservice oder aus einer externen Datenquelle laden können, muss eine Verbindung zu Ihrem Projekt erstellt oder hinzugefügt werden. Siehe Verbindungen zu Projekten hinzufügen.
Gehen Sie wie folgt vor, um Daten mithilfe einer vorhandenen Datenquellenverbindung in eine Datenstruktur im Notebook zu laden:
- Öffnen Sie Ihr Notebook im Bearbeitungsmodus.
- Klicken Sie auf das Symbol für Codeschnipsel , klicken Sie auf Daten lesen, und wählen Sie dann die Datenquellenverbindung aus Ihrem Projekt aus.
- Wählen Sie das Schema und eine Tabelle aus. Wenn Sie Ihre Auswahl ändern möchten, verwenden Sie das Symbol Bearbeiten .
- Wählen Sie die Ladeoption aus. Wenn Sie Berechtigungsnachweiseauswählen, werden nur Metadaten generiert. Details hierzu enthält der Abschnitt Berechtigungsnachweise hinzufügen.
- Klicken Sie in eine leere Codezelle in Ihrem Notebook und fügen Sie dann Code in die Zelle ein. Alternativ können Sie auf klicken, um den generierten Code in die Zwischenablage zu kopieren, und den Code anschließend in Ihr Notebook einfügen.
- Geben Sie bei Bedarf Ihre persönlichen Zugangsdaten für gesperrte Datenverbindungen ein, die mit dem Schlüsselsymbol gekennzeichnet sind. Dies ist ein einmaliger Schritt, der die Verbindung für Sie permanent entsperrt. Nachdem Sie die Verbindung entsperrt haben, wird das Schlüsselsymbol nicht mehr angezeigt. Weitere Informationen finden Sie unter Verbindungen zu Projekten hinzufügen.
Der generierte Code dient als Schnelleinstieg für die Arbeit mit einer Verbindung. Überprüfen Sie bei Produktionssystemen sorgfältig den eingefügten Code, um festzustellen, ob Sie eigenen Code schreiben müssen, der Ihren Anforderungen besser entspricht.
Informationen zu den einzelnen Verbindungseigenschaften finden Sie unter https://dataplatform.cloud.ibm.com/connections/docs
Informationen dazu, welche Datenstrukturen für welche Notebooksprache und welches Datenformat generiert werden, finden Sie unter Datenladeunterstützung.
Berechtigungsnachweise hinzufügen
Sie können Ihren eigenen Code generieren, um auf die Datei in Ihrem IBM Cloud Object Storage oder auf eine Datei zuzugreifen, die über eine Verbindung zugänglich ist. Dies ist beispielsweise nützlich, wenn Ihr Dateiformat vom Tool zur Generierung von Snippets nicht unterstützt wird. Mit den Berechtigungsnachweisen können Sie eigenen Code schreiben, um die Daten in eine Datenstruktur in einer Notebookzelle zu laden.
So fügen Sie die Berechtigungsnachweise hinzu:
- Klicken Sie auf das Symbol für die Codeschnipsel " und dann auf Daten lesen.
- Klicken Sie auf eine leere Codezelle in Ihrem Notebook, wählen Sie Berechtigungsnachweise als Ladeoption aus und laden Sie dann die Berechtigungsnachweise in die Zelle. Sie können auch klicken, um die Berechtigungsnachweise in die Zwischenablage zu kopieren und anschließend in Ihr Notebook einzufügen.
- Fügen Sie Ihre Berechtigungsnachweise in den Code in Ihrem Notebook ein, um auf die Daten zuzugreifen. Ein Beispiel finden Sie in diesem Code in einem Blog für Python.
Verwenden Sie eine API-Funktion oder einen Betriebssystembefehl, um auf die Daten zuzugreifen
Sie können API-Funktionen oder Betriebssystembefehle in Ihrem Notebook verwenden, um auf Daten zuzugreifen, z. B. den Befehl wget
, um über die Protokolle HTTP, HTTPS oder FTP auf Daten zuzugreifen. Wenn Sie diese Typen von API-Funktionen und -Befehlen verwenden, müssen Sie Code einschließen, der das Projektzugriffstoken festlegt. Weitere Informationen finden Sie unter Projektzugriffstoken manuell hinzufügen.
Referenzinformationen zur API finden Sie unter Daten und AI Common Core API.
Übergeordnetes Thema: Notebooks und Scripts