Extrahieren der Daten aus Microsoft Excel (DataStage )
Sie können die Excel-Stufe verwenden, um verschiedene Datentypen aus einem ausgewählten Datenbereich in einer Microsoft Excel-Datei zu extrahieren.
Datenbereiche
Wenn Sie die Excel-Stage verwenden, können Sie Daten aus einem angegebenen Datenbereich in einem Microsoft Excel-Arbeitsblatt extrahieren.
Ein Datenbereich stellt eine Zelle, eine Zeile, eine Spalte oder eine Auswahl von Zellen dar, die einen oder mehrere stetige Zellenblöcke enthalten. Der Datenbereich wird durch den Bereichsausdruck angegeben. In der Excel-Stage können Sie einen Bereichsausdruck verwenden, um den zu extrahierenden Datenbereich anzugeben.
Beispiel: Employee_Salary!A1:G8 beschreibt einen Datenbereich, in dem die erste Zelle A1 und die letzte Zelle G8 im Arbeitsblatt "Employee_Salary" ist.
1 | A EMPNO
|
B VORNAME
|
C LASTNAME
|
D ABT
|
E JOB
|
F GEHALT
|
G BONUS
|
---|---|---|---|---|---|---|---|
2 | 20 | Michael | THOMPSON | B01 | MGRPNR | 94250 | 800 |
3 | 30 Stunden | SALLY | KWAN | C01 | MGRPNR | 98250 | 800 |
4 | 60.000 | Irving | STERN | D11 | MGRPNR | 72250 | 500 |
5 | 70 | EVA | Pulaski | D21 | MGRPNR | 96170 | 700 |
6 | 50 | John | GEYER | E01 | MGRPNR | 80175 | 800 |
7 | 90 | ELEEN | Henderson | E11 | MGRPNR | 89750 | 600 |
8 | 100 | THEODORE | SPENSER | E21 | MGRPNR | 86150 | 500 |
Die Excel-Stufe ordnet die Microsoft Excel-Zeilen und -Spalten im angegebenen Datenbereich den IBM® DataStage® und -Spalten zu und extrahiert die Datensätze.
Die folgende Tabelle beschreibt die Datensätze, die von der Excel-Stufe extrahiert werden, wenn der Bereichsausdruck Employee_Salary!A2:G8.
EMPNO | VORNAME | LASTNAME | ABT | JOB | GEHALT | BONUS |
---|---|---|---|---|---|---|
20 | Michael | THOMPSON | B01 | MGRPNR | 94250 | 800 |
30 Stunden | SALLY | KWAN | C01 | MGRPNR | 98250 | 800 |
60.000 | Irving | STERN | D11 | MGRPNR | 72250 | 500 |
70 | EVA | Pulaski | D21 | MGRPNR | 96170 | 700 |
50 | John | GEYER | E01 | MGRPNR | 80175 | 800 |
90 | ELEEN | Henderson | E11 | MGRPNR | 89750 | 600 |
100 | THEODORE | SPENSER | E21 | MGRPNR | 86150 | 500 |
Wenn Sie den Wert der Zellen in der ersten Zeile als IBM InfoSphere® DataStage Spaltennamen verwenden möchten, können Sie die Eigenschaft Spaltenüberschrift verwenden. Wenn die Spaltenkopf-Eigenschaft auf die Erste Zeile der Datenbereiche eingestellt ist und Sie den Bereichsausdruck als Employee_Salary!A1:G8: Die erste Zeile wird als Kopfzeile behandelt und der Wert der Zellen in der ersten Zeile wird als Standardspaltenname DataStage im Job verwendet. Sie können einen Bereichsausdruck zur Entwicklungszeit mithilfe der Excel-Stage generieren.
Datentypen, die aus Microsoft Excel extrahiert werden können
Sie können die Excel-Stage zum Extrahieren verschiedener Datentypen aus einer Microsoft Excel-Datei verwenden.
- Dateieigenschaften
- In der folgenden Tabelle sind die Informationen aufgelistet, die als Dateieigenschaften extrahiert werden können.
Tabelle 3. Daten, die als Dateieigenschaften extrahiert werden können Daten Beschreibung Dateiname Der Name der Datei. Beispiel: Workbook1.xls Dateipfad Dateipfad. Beispiel: C:\excel\Workbook1.xls Dateigröße Größe der Datei in Byte. Datum der letzten Änderung Der Zeitpunkt (Datum und Uhrzeit), an dem die Datei zuletzt geändert wurde.
- Dokumenteigenschaften
- In der folgenden Tabelle sind die Informationen aufgelistet, die als Dokumenteigenschaften extrahiert werden können.
Tabelle 4. Als Dokumenteigenschaften extrahierbare Daten Daten Beschreibung Autor Autoren des Dokuments. Dokumentkommentare Kommentare des Dokuments. Datum der Erstellung von Inhalten Datum und Uhrzeit der Dokumenterstellung. Suchbegriffe Schlüsselwörter des Dokuments. Überarbeitungsnummer Überarbeitungsnummer des Dokuments. Betreff: Betreff des Dokuments. Titel Titel des Dokuments. Unternehmen Unternehmenseigenschaftswert des Dokuments. Kategorie Kategorie des Dokuments. Manager Manager des Dokuments. Angepasste Eigenschaften Benutzerdefinierte Eigenschaften des Dokuments. Sie müssen den Namen der zu extrahierenden angepassten Eigenschaft angeben.
- Arbeitsblattinformationen
- In der folgenden Tabelle sind die Informationen aufgelistet, die als Arbeitsblattinformationen extrahiert werden können:
Tabelle 5. Daten, die als Arbeitsblattinformationen extrahiert werden können Daten Beschreibung Arbeitsblattname Name des Microsoft Excel-Arbeitsblatts. Kopfzeile (links, Mitte, rechts) Kopfzeile der angegebenen Position. Fußzeile (links, Mitte, rechts) Fußzeile der angegebenen Position.
- Zeileninformationen
- In der folgenden Tabelle sind die Informationen aufgelistet, die als Zeileninformationen extrahiert werden können:
Tabelle 6. Daten, die als Zeileninformationen extrahiert werden können Daten Beschreibung Zeilennummer Microsoft Excel-Zeilennummer innerhalb des Arbeitsblatts. Die erste Zeilennummer ist 1. Ist ausgeblendet Gibt an, ob die Zeile ausgeblendet ist. Gibt 'true' aus, wenn die Zeile oder das Arbeitsblatt, zu der bzw. dem diese Zeile gehört, ausgeblendet ist.
- Zelleninformationen
- Sie können die Zelleninformationen basierend auf der Microsoft Excel-Spalte oder der Zellenposition extrahieren. Sie können die Microsoft Excel-Quellspalte basierend auf der relativen Position innerhalb des Datenbereichs angeben, wenn Sie die Zellinformationen basierend auf der Microsoft Excel-Spalte extrahieren.
Spaltenweitergabe während der Ausführung
In IBM DataStage können Sie einen Job so konfigurieren, dass zusätzliche Spalten, die nicht in den Metadaten definiert sind, durch den Rest des Jobs weitergegeben werden. Dieser Prozess wird als Laufzeitspaltenweitergabe (RCP) bezeichnet.
Wenn die Spaltenweitergabe zur Laufzeit aktiviert ist, gibt die Excel-Stage Microsoft Excel-Spalten basierend auf dem ersten Datenbereich weiter. Wenn Platzhalterzeichen im Dateinamen verwendet werden, wird die erste Datei verwendet, die dem Ausdruck entspricht. Die Einstellung der Eigenschaft "Verdeckte Spalten" bestimmt, ob eine verdeckte Spalte weitergegeben wird. Für jede weitergegebene Microsoft Excel-Spalte werden nur Zellenwerte extrahiert. Zum Extrahieren von Informationen wie dem Dateinamen, dem Arbeitsblattnamen oder der Zeilennummer können Sie die zusätzlichen Spalten im Konfigurationsfenster definieren.
Namenskonventionen für Spalten
IBM DataStage Spalten werden basierend auf dem Microsoft Excel-Spaltenbuchstaben des ersten Datenbereichs benannt. Dem Spaltennamen wird "Column" gefolgt vom Buchstaben der Microsoft Excel-Spalte vorangestellt. Beispiel: Column_A, Column_B, Column_C usw.
Wenn der Auftrag bereits eine Spalte mit diesem Namen hat, wird der Auftrag abgebrochen.
Datentypen
Alle Spalten, die von der Excel-Stage hinzugefügt werden, weisen den Typ Unicode-Varchar mit nicht definierter Länge auf.