Utilizzare il connettore Amazon S3 in DataStage®per connettersi a Amazon Simple Storage Service (S3) ed eseguire varie funzioni di lettura e scrittura.
Proprietà DataStage
Nella sezione Proprietà della scheda Stage, selezionare Usa DataStage per accedere alle proprietà specifiche di DataStage. Queste proprietà forniscono più funzioni e un controllo granulare dell'esecuzione del flusso, simile ai connettori "ottimizzati".
Se si seleziona Usa le proprietà DataStage con un file .CSV, i valori delle colonne devono avere le virgolette doppie intorno. Se è necessaria una personalizzazione, utilizzare il connettore Proprietà formato file per modificare il formato file in Delimitato. Quindi, selezionare il delimitatore di campo, il delimitatore di riga, il carattere virgoletta e il carattere escape.
Deselezionare Utilizza proprietà DataStage per accedere alle selezioni delle proprietà Formato tabella .
Se si seleziona Usa proprietà dell' DataStage, utilizzare l' URL corretta dell'endpoint durante l'accesso al bucket. Se si desidera accedere alla benna in un'altra regione, non fornire l'endpoint URL. L'accesso tra regioni non è supportato quando vengono forniti endpoint.
Configurazione del connettore Amazon S3 come origine
Le proprietà disponibili per la Modalità di lettura dipendono dal fatto che si selezioni Utilizza proprietà DataStage.
Configurare il processo di lettura per
Amazon S3 connettore quando si seleziona
Usa proprietà DataStage (predefinito).
Tabella 1. Lettura dei dati da Amazon S3 con "Utilizza DataStage properties" selezionata
Modalità di lettura |
Procedura |
Leggi un singolo file |
Specificare il nome del bucket che contiene il file, quindi specificare il nome del file da leggere. |
Leggi più file |
- Specificare il nome del bucket che contiene i file.
- Nel campo Nome file , specificare un prefisso che i file che si desidera leggere devono avere nel percorso file.
Ad esempio, se si immette transactions come prefisso, il connettore legge tutti i file nella cartella transactions , ad esempio transactions/january/day1.txt, e un file denominato transactions.txt.
|
Elenca bucket |
Non è necessaria alcuna configurazione aggiuntiva. |
Elenca file |
- Specificare il nome del bucket che contiene i file.
Facoltativo: nel campo Nome file , specificare un prefisso che i file che si desidera leggere devono avere nel percorso file.
Ad esempio, se si immette transactions come prefisso, il connettore elenca tutti i file nella cartella transactions , ad esempio transactions/january/day1.txt, e un file denominato transactions.txt.
Se non specifichi un prefisso del nome file, vengono elencati tutti i file nel contenitore bucket.
|
Configurare il processo di lettura per Amazon S3 connettore quando si cancella Usa proprietà DataStage.
Tabella 2. Lettura dei dati da Amazon S3 con "Utilizza DataStage properties" non selezionata
Modalità di lettura |
Procedura |
Leggi un singolo file |
Specificare il nome del bucket che contiene il file, quindi specificare il nome del file da leggere. |
Leggi dati binari |
Specificare il nome del bucket che contiene il file, quindi specificare il nome del file da leggere. |
Leggere dati binari da più file utilizzando caratteri jolly |
Specificare un carattere jolly nel nome file per i dati binari. Ad esempio, in Nome file scrivere test.*.gz. Se si utilizza questa opzione, è possibile leggere più file binari uno dopo l'altro e ogni file verrà letto come un record.
Se si seleziona Leggi un file in una riga, è necessario fornire due nomi colonna nella scheda Output dello stage di origine:
- La prima colonna deve essere un tipo di dati stringa. Questa colonna è per il nome file.
- La seconda colonna deve essere un tipo di dati binario. Questa colonna è per il file. Il valore di precisione della colonna binaria deve essere maggiore o uguale alla dimensione massima del file.
|
Leggere più file utilizzando l'espressione regex |
Specificare il nome del bucket che contiene i file. È possibile utilizzare un'espressione regex Java per il nome file. Esempi:
^csv_write_datatypes_h.[0-9]$
csv_write_datatypes_h.[^12]
|
Leggere più file utilizzando i caratteri jolly |
Specificare un asterisco (*) per corrispondere a zero o più caratteri. Ad esempio, specificare *.txt per mettere in corrispondenza tutti i file con l'estensione .txt. Specificare un punto interrogativo (?) che corrisponda a un carattere.
Esempi:
csv_write_datatypes.*
?_abc_test*
|
Configurazione del connettore Amazon S3 come destinazione
Le proprietà disponibili per la Modalità di scrittura dipendono dal fatto che si selezioni o meno Utilizza proprietà DataStage.
Configurare il processo di scrittura per il
Amazon S3 connettore quando si seleziona
Usa proprietà DataStage (predefinito).
Tabella 3. Scrittura dei dati in Amazon S3 con "Utilizza DataStage properties" selezionato
Modalità di scrittura |
Procedura |
Elimina un file |
- Specifica il nome del bucket che contiene i file o seleziona Crea bucket.
- Specificare un nome file da cancellare nel campo Nome file .
|
Scrivere in un file |
- Specificare il nome del bucket che contiene i file.
- Se vuoi creare un bucket che contiene i file in cui scrivere, imposta l'opzione Crea bucket su Sì. Quindi è possibile selezionare l'opzione Append unique ID per aggiungere un insieme di caratteri univoci al nome del bucket creato.
- Specificare un nome file in cui scrivere nel campo Nome file .
- Scegliere una delle tre opzioni in Se il file esiste: non sovrascrivere il file, Non riuscito o Sovrascrivi file.
- Nella sezione Gestione avv , è possibile scegliere un'opzione Accoda identificativo univoco . Utilizzarlo per scegliere se un identificativo univoco deve essere aggiunto al nome file. Quando è impostato su Sì:
- Il nome file viene accodato con l'identificativo univoco e viene scritto un nuovo file per ogni ondata di dati trasmessi nello stage.
- l'opzione Soglia dimensione file è abilitata. Specificare la soglia per la dimensione del file in megabyte. I nodi di elaborazione avviano un nuovo file ogni volta che la dimensione supera il valore specificato.
Se impostato su No, il file viene sovrascritto su ogni wave.
- In Attributi File è possibile:
- Specificare User metadata in un elenco di coppie nome - valore, ad esempio Topic=News. Separare ciascuna coppia nome - valore con un punto e virgola, ad esempio Topic=Music;SubTopic=Pop.
- Scegli una delle tre opzioni in Crittografia lato server: None, AES-256o AWS KMS.
- Scegliere la Classe di archiviazione per il file: la ridondanza ridotta o lo standard.
- Specificare il Tipo di contenuto del file da scrivere. Ad esempio, text/xml o charset=utf-8.
- Impostare l'opzione Definisci regole del ciclo di vita su Sì. Quindi, è possibile scegliere il dispositivo Ambito regola solo per il file o i file nella cartella e Formato del periodo di tempo per specificare se la regola del ciclo di vita è basata sul numero di giorni (giorni dalla data di creazione) o su una data specifica. È possibile impostare l'opzione Scadenza su Sì e specificare il numero di giorni in cui il file esisterà. È possibile impostare l'opzione Archivia su Sì per specificare se archiviare il file in Amazon Glacier e specificare la data di archiviazione.
- Specificare la quantità di dati in MB che il connettore scrive in Amazon S3 prima che il connettore scriva un messaggio di avanzamento nel registro lavori in Intervallo per i messaggi di avanzamento.
- Specificare il Numero di programmi di scrittura paralleli.
- Specificare la Dimensione heap massima della Java Virtual Machine in megabyte.
|
Configurare il processo di scrittura per il Amazon S3 connettore quando si cancella Usare le proprietà di DataStage.
Tabella 4. Scrittura dei dati in Amazon S3 con "Utilizza proprietà DataStage non selezionate"
Modalità di scrittura |
Procedura |
Elimina un file |
- Specificare il nome del bucket che contiene i file.
- Nell' azione Tabella scegliere una delle tre opzioni: Accoda, Sostituisci o Tronca.
- Specificare un nome file da cancellare nel campo Nome file .
|
Scrivere in un file |
- Specifica il nome del bucket che contiene i file o seleziona Crea bucket.
- Nell' azione Tabella scegliere una delle tre opzioni: Accoda, Sostituisci o Tronca.
- In Formato tabella scegliere una delle tre opzioni: Deltalake, File flat o Iceberg. Se si sceglie il file Flat è disponibile l'opzione Partitioned, che scrive il file con più partizioni.
- Specificare un nome file in cui scrivere nel campo Nome file .
|
Scrivi dati binari |
- Specifica il nome del bucket che contiene i file o seleziona Crea bucket.
- Nell' azione Tabella scegliere una delle tre opzioni: Accoda, Sostituisci o Tronca.
- Specificare un nome file in cui scrivere nel campo Nome file .
|