0 / 0
Zurück zur englischen Version der Dokumentation

Extrahieren der Daten aus Microsoft Excel (DataStage )

Letzte Aktualisierung: 12. März 2025
Daten aus Microsoft Excel extrahieren (Stage 'Excel') in DataStage

Sie können die Excel-Stufe verwenden, um verschiedene Datentypen aus einem ausgewählten Datenbereich in einer Microsoft Excel-Datei zu extrahieren.

Datenbereiche

Wenn Sie die Excel-Stage verwenden, können Sie Daten aus einem angegebenen Datenbereich in einem Microsoft Excel-Arbeitsblatt extrahieren.

Ein Datenbereich stellt eine Zelle, eine Zeile, eine Spalte oder eine Auswahl von Zellen dar, die einen oder mehrere stetige Zellenblöcke enthalten. Der Datenbereich wird durch den Bereichsausdruck angegeben. In der Excel-Stage können Sie einen Bereichsausdruck verwenden, um den zu extrahierenden Datenbereich anzugeben.

Beispiel: Employee_Salary!A1:G8 beschreibt einen Datenbereich, in dem die erste Zelle A1 und die letzte Zelle G8 im Arbeitsblatt "Employee_Salary" ist.

Tabelle 1. Beispiel für eine Microsoft Excel-Datei; Tabellenkalkulation Employee_Salary
1 A
EMPNO
B
VORNAME
C
LASTNAME
D
ABT
E
JOB
F
GEHALT
G
BONUS
2 20 Michael THOMPSON B01 MGRPNR 94250 800
3 30 Stunden SALLY KWAN C01 MGRPNR 98250 800
4 60.000 Irving STERN D11 MGRPNR 72250 500
5 70 EVA Pulaski D21 MGRPNR 96170 700
6 50 John GEYER E01 MGRPNR 80175 800
7 90 ELEEN Henderson E11 MGRPNR 89750 600
8 100 THEODORE SPENSER E21 MGRPNR 86150 500

Die Excel-Stufe ordnet die Microsoft Excel-Zeilen und -Spalten im angegebenen Datenbereich den IBM® DataStage® und -Spalten zu und extrahiert die Datensätze.

Die folgende Tabelle beschreibt die Datensätze, die von der Excel-Stufe extrahiert werden, wenn der Bereichsausdruck Employee_Salary!A2:G8.

Tabelle 2. Beispiel für Zeile und Spalte DataStage
EMPNO VORNAME LASTNAME ABT JOB GEHALT BONUS
20 Michael THOMPSON B01 MGRPNR 94250 800
30 Stunden SALLY KWAN C01 MGRPNR 98250 800
60.000 Irving STERN D11 MGRPNR 72250 500
70 EVA Pulaski D21 MGRPNR 96170 700
50 John GEYER E01 MGRPNR 80175 800
90 ELEEN Henderson E11 MGRPNR 89750 600
100 THEODORE SPENSER E21 MGRPNR 86150 500

Wenn Sie den Wert der Zellen in der ersten Zeile als IBM InfoSphere® DataStage Spaltennamen verwenden möchten, können Sie die Eigenschaft Spaltenüberschrift verwenden. Wenn die Spaltenkopf-Eigenschaft auf die Erste Zeile der Datenbereiche eingestellt ist und Sie den Bereichsausdruck als Employee_Salary!A1:G8: Die erste Zeile wird als Kopfzeile behandelt und der Wert der Zellen in der ersten Zeile wird als Standardspaltenname DataStage im Job verwendet. Sie können einen Bereichsausdruck zur Entwicklungszeit mithilfe der Excel-Stage generieren.

Datentypen, die aus Microsoft Excel extrahiert werden können

Sie können die Excel-Stage zum Extrahieren verschiedener Datentypen aus einer Microsoft Excel-Datei verwenden.

Dateieigenschaften
In der folgenden Tabelle sind die Informationen aufgelistet, die als Dateieigenschaften extrahiert werden können.
Tabelle 3. Daten, die als Dateieigenschaften extrahiert werden können
Daten Beschreibung
Dateiname Der Name der Datei. Beispiel: Workbook1.xls
Dateipfad Dateipfad. Beispiel: C:\excel\Workbook1.xls
Dateigröße Größe der Datei in Byte.
Datum der letzten Änderung Der Zeitpunkt (Datum und Uhrzeit), an dem die Datei zuletzt geändert wurde.
Dokumenteigenschaften
In der folgenden Tabelle sind die Informationen aufgelistet, die als Dokumenteigenschaften extrahiert werden können.
Tabelle 4. Als Dokumenteigenschaften extrahierbare Daten
Daten Beschreibung
Autor Autoren des Dokuments.
Dokumentkommentare Kommentare des Dokuments.
Datum der Erstellung von Inhalten Datum und Uhrzeit der Dokumenterstellung.
Suchbegriffe Schlüsselwörter des Dokuments.
Überarbeitungsnummer Überarbeitungsnummer des Dokuments.
Betreff: Betreff des Dokuments.
Titel Titel des Dokuments.
Unternehmen Unternehmenseigenschaftswert des Dokuments.
Kategorie Kategorie des Dokuments.
Manager Manager des Dokuments.
Angepasste Eigenschaften Benutzerdefinierte Eigenschaften des Dokuments. Sie müssen den Namen der zu extrahierenden angepassten Eigenschaft angeben.
Arbeitsblattinformationen
In der folgenden Tabelle sind die Informationen aufgelistet, die als Arbeitsblattinformationen extrahiert werden können:
Tabelle 5. Daten, die als Arbeitsblattinformationen extrahiert werden können
Daten Beschreibung
Arbeitsblattname Name des Microsoft Excel-Arbeitsblatts.
Kopfzeile (links, Mitte, rechts) Kopfzeile der angegebenen Position.
Fußzeile (links, Mitte, rechts) Fußzeile der angegebenen Position.
Zeileninformationen
In der folgenden Tabelle sind die Informationen aufgelistet, die als Zeileninformationen extrahiert werden können:
Tabelle 6. Daten, die als Zeileninformationen extrahiert werden können
Daten Beschreibung
Zeilennummer Microsoft Excel-Zeilennummer innerhalb des Arbeitsblatts. Die erste Zeilennummer ist 1.
Ist ausgeblendet Gibt an, ob die Zeile ausgeblendet ist. Gibt 'true' aus, wenn die Zeile oder das Arbeitsblatt, zu der bzw. dem diese Zeile gehört, ausgeblendet ist.
Zelleninformationen
Sie können die Zelleninformationen basierend auf der Microsoft Excel-Spalte oder der Zellenposition extrahieren. Sie können die Microsoft Excel-Quellspalte basierend auf der relativen Position innerhalb des Datenbereichs angeben, wenn Sie die Zellinformationen basierend auf der Microsoft Excel-Spalte extrahieren.
Die folgende Tabelle enthält Informationen, die als Zelleninformationen extrahiert werden können:
Tabelle 7. Daten, die als Zelleninformationen extrahiert werden können
Daten Beschreibung
Wert Wert einer Zelle. Wenn die Zelle eine Formel hat, extrahiert die Stage den Wert aus dem Cache.
Kommentar Kommentar einer Zelle.
Autor des Kommentars Autor des Kommentars einer Zelle.
Formel Formel einer Zelle im Text.
Hyperlinktyp Typ des Hyperlinks einer Zelle.
Hyperlinkadresse Die Adresse, auf die dieser Hyperlink verweist. Das Format hängt von der Art des Hyperlinks ab.
Hyperlinkbeschriftung Textbezeichnung für diesen Hyperlink.

Spaltenweitergabe während der Ausführung

In IBM DataStage können Sie einen Job so konfigurieren, dass zusätzliche Spalten, die nicht in den Metadaten definiert sind, durch den Rest des Jobs weitergegeben werden. Dieser Prozess wird als Laufzeitspaltenweitergabe (RCP) bezeichnet.

Wenn die Spaltenweitergabe zur Laufzeit aktiviert ist, gibt die Excel-Stage Microsoft Excel-Spalten basierend auf dem ersten Datenbereich weiter. Wenn Platzhalterzeichen im Dateinamen verwendet werden, wird die erste Datei verwendet, die dem Ausdruck entspricht. Die Einstellung der Eigenschaft "Verdeckte Spalten" bestimmt, ob eine verdeckte Spalte weitergegeben wird. Für jede weitergegebene Microsoft Excel-Spalte werden nur Zellenwerte extrahiert. Zum Extrahieren von Informationen wie dem Dateinamen, dem Arbeitsblattnamen oder der Zeilennummer können Sie die zusätzlichen Spalten im Konfigurationsfenster definieren.

Namenskonventionen für Spalten

IBM DataStage Spalten werden basierend auf dem Microsoft Excel-Spaltenbuchstaben des ersten Datenbereichs benannt. Dem Spaltennamen wird "Column" gefolgt vom Buchstaben der Microsoft Excel-Spalte vorangestellt. Beispiel: Column_A, Column_B, Column_C usw.

Wenn der Auftrag bereits eine Spalte mit diesem Namen hat, wird der Auftrag abgebrochen.

Datentypen

Alle Spalten, die von der Excel-Stage hinzugefügt werden, weisen den Typ Unicode-Varchar mit nicht definierter Länge auf.