Estrazione dei dati da Microsoft Excel (DataStage )
È possibile utilizzare lo stage Excel per estrarre diversi tipi di dati da un intervallo di dati selezionato in un file Microsoft Excel.
intervalli di dati
Quando si utilizza la fase Excel, è possibile estrarre i dati da un intervallo di dati specificato in un foglio di calcolo Microsoft Excel.
L'intervallo di dati rappresenta una cella, una riga, una colonna o una selezione di celle che contengono uno o più blocchi continui di celle. L'intervallo di dati è specificato dall'espressione intervallo. Nella fase di Excel, è possibile utilizzare un'espressione di intervallo per specificare l'intervallo di dati da estrarre.
Ad esempio, Employee_Salary!A1:G8 descrive un intervallo di dati in cui si trova la prima cella A1 e l'ultima cella lo è G8 nel foglio di calcolo Employee_Salary.
1 | A EMPNO
|
B firstName
|
C lastName
|
D DEPT
|
E LAVORO
|
F SALARY
|
G Bonus
|
---|---|---|---|---|---|---|---|
2 | 20 | Michael | THOMPSON | B01 | Manager | 94250 | 800 |
3 | 30 | SORTITA | KWAN | C01 | Manager | 98250 | 800 |
4 | 60 | Irving | POPPA | D11 | Manager | 72250 | 500 |
5 | 70 | EVA | Pulaski | D21 | Manager | 96170 | 700 |
6 | 50 | John | GEYER | E01 | Manager | 80175 | 800 |
7 | 90 | ELEN | Henderson | E11 | Manager | 89750 | 600 |
8 | 100 | TEODORO | SPENSER | E21 | Manager | 86150 | 500 |
Lo stage Excel mappa le righe e le colonne di Microsoft Excel nell'intervallo di dati specificato in righe e colonne di IBM® DataStage® ed estrae i record.
La tabella seguente descrive i record che vengono estratti dallo stage di Excel quando l'espressione dell'intervallo è Employee_Salary!A2:G8.
EMPNO | firstName | lastName | DEPT | LAVORO | SALARY | Bonus |
---|---|---|---|---|---|---|
20 | Michael | THOMPSON | B01 | Manager | 94250 | 800 |
30 | SORTITA | KWAN | C01 | Manager | 98250 | 800 |
60 | Irving | POPPA | D11 | Manager | 72250 | 500 |
70 | EVA | Pulaski | D21 | Manager | 96170 | 700 |
50 | John | GEYER | E01 | Manager | 80175 | 800 |
90 | ELEN | Henderson | E11 | Manager | 89750 | 600 |
100 | TEODORO | SPENSER | E21 | Manager | 86150 | 500 |
Se si desidera utilizzare il valore delle celle della prima riga come nome della colonna IBM InfoSphere® DataStage, è possibile utilizzare la proprietà Intestazione colonna. Se la proprietà Intestazione colonna è impostata su Prima riga di intervalli di dati, e se si specifica l'espressione dell'intervallo come Employee_Salary!A1:G8, la prima riga viene trattata come intestazione e il valore delle celle nella prima riga viene utilizzato come predefinito DataStage nome della colonna nel lavoro. È possibile generare espressioni di intervallo in fase di progettazione utilizzando lo stage di Excel.
Tipi di dati che possono essere estratti da Microsoft Excel
È possibile utilizzare lo stage Excel per estrarre diversi tipi di dati da un file Microsoft Excel.
- Proprietà del file
- La tabella seguente elenca le informazioni che possono essere estratte come proprietà del file:
Tabella 3. Dati che possono essere estratti come proprietà del file Dati Descrizione Nome file Nome del file. Ad esempio: Workbook1.xls Percorso file Percorso del file. Ad esempio: C:\excel\Workbook1.xls Dimensione file Dimensione del file in byte. Data ultima modifica La data e l'ora dell'ultima modifica del file.
- Proprietà documento
- La tabella seguente elenca le informazioni che possono essere estratte come proprietà del documento:
Tabella 4. Dati che possono essere estratti come proprietà del documento Dati Descrizione Autori Autori del documento. Commenti sul documento Commenti al documento. Data di creazione contenuto La data e l'ora in cui è stato creato il documento. Parole chiave Parole chiave del documento. Numero revisione Numero di revisione del documento. Oggetto: Oggetto del documento. Titolo Titolo del documento. Azienda Valore di proprietà aziendale del documento. Categoria Categoria del documento. Responsabile Gestore del documento. Proprietà personalizzate Proprietà personalizzate del documento. È necessario specificare il nome della proprietà personalizzata da estrarre.
- Informazioni sul foglio
- La tabella seguente elenca le informazioni che possono essere estratte come informazioni sul foglio:
Tabella 5. Dati che possono essere estratti come informazioni sul foglio Dati Descrizione Nome foglio Nome del foglio Microsoft Excel. Intestazione (sinistra, centro, destra) Intestazione della posizione specificata. Piè di pagina (sinistra, centro, destra) Piè di pagina della posizione specificata.
- Informazioni sulla riga
- La tabella seguente elenca le informazioni che possono essere estratte come informazioni sulla riga:
Tabella 6. Dati che possono essere estratti come informazioni sulla riga Dati Descrizione Numero di riga Numero di riga di Microsoft Excel all'interno del foglio. Il numero della prima riga è 1. È nascosto Se la riga è nascosta o meno. Scrive vero se la riga o il foglio a cui appartiene questa riga è nascosto.
- Informazioni sulla cella
- È possibile estrarre le informazioni sulla cella in base alla colonna di Microsoft Excel o alla posizione della cella. È possibile specificare la colonna Microsoft Excel di origine in base alla posizione relativa all'interno dell'intervallo di dati quando si estraggono le informazioni della cella in base alla colonna Microsoft Excel.
Propagazione colonna di runtime
In IBM DataStage, è possibile configurare un lavoro per propagare colonne aggiuntive non definite nei metadati attraverso il resto del lavoro. Questo processo è noto come RCP (runtime column propagation).
Quando la propagazione delle colonne in runtime è abilitata, lo stage Excel propaga le colonne di Microsoft Excel in base al primo intervallo di dati. Se nel nome del file vengono utilizzati caratteri jolly, viene utilizzato il primo file che corrisponde all'espressione. L'impostazione della proprietà delle colonne nascoste determina se una colonna nascosta viene propagata. Per ogni colonna di Microsoft Excel propagata vengono estratti solo i valori delle celle. Per estrarre informazioni come il nome del file, il nome del foglio o il numero della riga, puoi definire le colonne aggiuntive nella finestra di configurazione.
Regole di denominazione delle colonne
IBM DataStage le colonne vengono denominate in base alla lettera della colonna di Microsoft Excel del primo intervallo di dati. Il nome della colonna è preceduto da "Colonna_" seguito dalla lettera della colonna di Microsoft Excel. Ad esempio, Colonna_A, Colonna_B, Colonna_C e così via.
Se il lavoro ha già una colonna con il nome, il lavoro si interrompe.
Tipi di dati
Tutte le colonne aggiunte dalla fase di Excel sono di tipo Unicode Varchar con lunghezza non definita.