0 / 0
Torna alla versione inglese della documentazione

Estrazione dei dati da Microsoft Excel (DataStage )

Ultimo aggiornamento: 12 mar 2025
Estrazione dei dati da Microsoft Excel (fase Excel) in DataStage

È possibile utilizzare lo stage Excel per estrarre diversi tipi di dati da un intervallo di dati selezionato in un file Microsoft Excel.

intervalli di dati

Quando si utilizza la fase Excel, è possibile estrarre i dati da un intervallo di dati specificato in un foglio di calcolo Microsoft Excel.

L'intervallo di dati rappresenta una cella, una riga, una colonna o una selezione di celle che contengono uno o più blocchi continui di celle. L'intervallo di dati è specificato dall'espressione intervallo. Nella fase di Excel, è possibile utilizzare un'espressione di intervallo per specificare l'intervallo di dati da estrarre.

Ad esempio, Employee_Salary!A1:G8 descrive un intervallo di dati in cui si trova la prima cella A1 e l'ultima cella lo è G8 nel foglio di calcolo Employee_Salary.

Tabella 1. Esempio di file Microsoft Excel; foglio elettronico Employee_Salary
1 A
EMPNO
B
firstName
C
lastName
D
DEPT
E
LAVORO
F
SALARY
G
Bonus
2 20 Michael THOMPSON B01 Manager 94250 800
3 30 SORTITA KWAN C01 Manager 98250 800
4 60 Irving POPPA D11 Manager 72250 500
5 70 EVA Pulaski D21 Manager 96170 700
6 50 John GEYER E01 Manager 80175 800
7 90 ELEN Henderson E11 Manager 89750 600
8 100 TEODORO SPENSER E21 Manager 86150 500

Lo stage Excel mappa le righe e le colonne di Microsoft Excel nell'intervallo di dati specificato in righe e colonne di IBM® DataStage® ed estrae i record.

La tabella seguente descrive i record che vengono estratti dallo stage di Excel quando l'espressione dell'intervallo è Employee_Salary!A2:G8.

Tabella 2. Esempio di DataStage riga e colonna
EMPNO firstName lastName DEPT LAVORO SALARY Bonus
20 Michael THOMPSON B01 Manager 94250 800
30 SORTITA KWAN C01 Manager 98250 800
60 Irving POPPA D11 Manager 72250 500
70 EVA Pulaski D21 Manager 96170 700
50 John GEYER E01 Manager 80175 800
90 ELEN Henderson E11 Manager 89750 600
100 TEODORO SPENSER E21 Manager 86150 500

Se si desidera utilizzare il valore delle celle della prima riga come nome della colonna IBM InfoSphere® DataStage, è possibile utilizzare la proprietà Intestazione colonna. Se la proprietà Intestazione colonna è impostata su Prima riga di intervalli di dati, e se si specifica l'espressione dell'intervallo come Employee_Salary!A1:G8, la prima riga viene trattata come intestazione e il valore delle celle nella prima riga viene utilizzato come predefinito DataStage nome della colonna nel lavoro. È possibile generare espressioni di intervallo in fase di progettazione utilizzando lo stage di Excel.

Tipi di dati che possono essere estratti da Microsoft Excel

È possibile utilizzare lo stage Excel per estrarre diversi tipi di dati da un file Microsoft Excel.

Proprietà del file
La tabella seguente elenca le informazioni che possono essere estratte come proprietà del file:
Tabella 3. Dati che possono essere estratti come proprietà del file
Dati Descrizione
Nome file Nome del file. Ad esempio: Workbook1.xls
Percorso file Percorso del file. Ad esempio: C:\excel\Workbook1.xls
Dimensione file Dimensione del file in byte.
Data ultima modifica La data e l'ora dell'ultima modifica del file.
Proprietà documento
La tabella seguente elenca le informazioni che possono essere estratte come proprietà del documento:
Tabella 4. Dati che possono essere estratti come proprietà del documento
Dati Descrizione
Autori Autori del documento.
Commenti sul documento Commenti al documento.
Data di creazione contenuto La data e l'ora in cui è stato creato il documento.
Parole chiave Parole chiave del documento.
Numero revisione Numero di revisione del documento.
Oggetto: Oggetto del documento.
Titolo Titolo del documento.
Azienda Valore di proprietà aziendale del documento.
Categoria Categoria del documento.
Responsabile Gestore del documento.
Proprietà personalizzate Proprietà personalizzate del documento. È necessario specificare il nome della proprietà personalizzata da estrarre.
Informazioni sul foglio
La tabella seguente elenca le informazioni che possono essere estratte come informazioni sul foglio:
Tabella 5. Dati che possono essere estratti come informazioni sul foglio
Dati Descrizione
Nome foglio Nome del foglio Microsoft Excel.
Intestazione (sinistra, centro, destra) Intestazione della posizione specificata.
Piè di pagina (sinistra, centro, destra) Piè di pagina della posizione specificata.
Informazioni sulla riga
La tabella seguente elenca le informazioni che possono essere estratte come informazioni sulla riga:
Tabella 6. Dati che possono essere estratti come informazioni sulla riga
Dati Descrizione
Numero di riga Numero di riga di Microsoft Excel all'interno del foglio. Il numero della prima riga è 1.
È nascosto Se la riga è nascosta o meno. Scrive vero se la riga o il foglio a cui appartiene questa riga è nascosto.
Informazioni sulla cella
È possibile estrarre le informazioni sulla cella in base alla colonna di Microsoft Excel o alla posizione della cella. È possibile specificare la colonna Microsoft Excel di origine in base alla posizione relativa all'interno dell'intervallo di dati quando si estraggono le informazioni della cella in base alla colonna Microsoft Excel.
La tabella seguente elenca le informazioni che possono essere estratte come informazioni sulla cella:
Tabella 7. Dati che possono essere estratti come informazioni sulla cella
Dati Descrizione
Valore Valore di una cella. Se la cella ha una formula, lo stage estrae il valore dalla cache.
Commento Commento di una cella.
Autore del commento Autore del commento di una cella.
Formula Formula di una cella nel testo.
Tipo di collegamento ipertestuale Tipo di collegamento ipertestuale di una cella.
Indirizzo del collegamento ipertestuale L'indirizzo a cui punta questo collegamento ipertestuale. Il formato dipende dal tipo di collegamento ipertestuale.
Etichetta del collegamento ipertestuale Etichetta di testo per questo collegamento ipertestuale.

Propagazione colonna di runtime

In IBM DataStage, è possibile configurare un lavoro per propagare colonne aggiuntive non definite nei metadati attraverso il resto del lavoro. Questo processo è noto come RCP (runtime column propagation).

Quando la propagazione delle colonne in runtime è abilitata, lo stage Excel propaga le colonne di Microsoft Excel in base al primo intervallo di dati. Se nel nome del file vengono utilizzati caratteri jolly, viene utilizzato il primo file che corrisponde all'espressione. L'impostazione della proprietà delle colonne nascoste determina se una colonna nascosta viene propagata. Per ogni colonna di Microsoft Excel propagata vengono estratti solo i valori delle celle. Per estrarre informazioni come il nome del file, il nome del foglio o il numero della riga, puoi definire le colonne aggiuntive nella finestra di configurazione.

Regole di denominazione delle colonne

IBM DataStage le colonne vengono denominate in base alla lettera della colonna di Microsoft Excel del primo intervallo di dati. Il nome della colonna è preceduto da "Colonna_" seguito dalla lettera della colonna di Microsoft Excel. Ad esempio, Colonna_A, Colonna_B, Colonna_C e così via.

Se il lavoro ha già una colonna con il nome, il lavoro si interrompe.

Tipi di dati

Tutte le colonne aggiunte dalla fase di Excel sono di tipo Unicode Varchar con lunghezza non definita.