Microsoft Excelからデータを抽出する(DataStage)
Excelステージを使用すると、Microsoft Excelファイルの選択したデータ範囲から複数の種類のデータを抽出できます。
データ範囲
Excel ステージを使用すると、Microsoft Excel スプレッドシート内の指定されたデータ範囲からデータを抽出できます。
データ範囲は、セル、行、列、または 1 つ以上の連続したセル・ブロックを含むセルの選択を表します。 データ範囲は範囲式で指定する。 Excel ステージでは、範囲式を使用して、抽出するデータ範囲を指定できます。
例えば、Employee_Salary!A1:G8 は、Employee_Salary スプレッドシート内の、最初のセルが A1 で最後のセルが G8 であるデータ範囲を示します。
1 | A EMPNO
|
B FIRSTNAME
|
C LASTNAME
|
D DEPT
|
E JOB
|
F SALARY
|
G BONUS
|
---|---|---|---|---|---|---|---|
2 | 20 | MICHAEL | THOMPSON | B01 | MANAGER | 94250 | 800 |
3 | 30時間まで | SALLY | KWAN | C01 | MANAGER | 98250 | 800 |
4 | 60 | IRVING | STERN | D11 | MANAGER | 72250 | 500 |
5 | 70 | EVA | PULASKI | D21 | MANAGER | 96170 | 700 |
6 | 50 | JOHN | GEYER | E01 | MANAGER | 80175 | 800 |
7 | 90 | ELEEN | HENDERSON | E11 | MANAGER | 89750 | 600 |
8 | 100 | THEODORE | SPENSER | E21 | MANAGER | 86150 | 500 |
Excelステージは、指定されたデータ範囲内のMicrosoft Excelの行と列をIBM® DataStage®の行と列にマッピングし、レコードを抽出します。
次の表は、範囲式が Employee_Salary の場合に Excel のステージで抽出されるレコードについて説明したものです!A2:G8.
EMPNO | FIRSTNAME | LASTNAME | DEPT | JOB | SALARY | BONUS |
---|---|---|---|---|---|---|
20 | MICHAEL | THOMPSON | B01 | MANAGER | 94250 | 800 |
30時間まで | SALLY | KWAN | C01 | MANAGER | 98250 | 800 |
60 | IRVING | STERN | D11 | MANAGER | 72250 | 500 |
70 | EVA | PULASKI | D21 | MANAGER | 96170 | 700 |
50 | JOHN | GEYER | E01 | MANAGER | 80175 | 800 |
90 | ELEEN | HENDERSON | E11 | MANAGER | 89750 | 600 |
100 | THEODORE | SPENSER | E21 | MANAGER | 86150 | 500 |
最初の行のセルの値を IBM InfoSphere® DataStage 列名として使用する場合は、列ヘッダ プロパティを使用できます。 列ヘッダ・プロパティに データ範囲の最初の行を設定し、範囲式をEmployee_Salaryと指定した場合!A1:G8 と指定すると、最初の行はヘッダーとして扱われ、最初の行のセルの値はジョブ内のデフォルトの DataStage 列名として使用されます。 Excel ステージを使用して、デザイン時に範囲式を生成できます。
Microsoft Excel から抽出できるデータのタイプ
Excel ステージを使用して、Microsoft Excel ファイルからいくつかのタイプのデータを抽出できます。
- ファイル・プロパティー
- 次の表は、ファイル・プロパティーとして抽出できる情報をリストしています。
表 3. ファイル・プロパティーとして抽出できるデータ データ 説明 ファイル名 ファイルの名前。 例えば、 Workbook1.xls ファイル・パス ファイルのパス。 例えば、 C:\excel\Workbook1.xls ファイル・サイズ ファイルのサイズ (バイト単位)。 最終変更日時 ファイルが最後に変更された日時。
- 文書プロパティー
- 次の表は、文書プロパティーとして抽出できる情報をリストしています。
表 4。 文書プロパティーとして抽出できるデータ データ 説明 著者一覧 文書の作成者。 ドキュメント・コメント 文書のコメント。 コンテンツ作成日 文書が作成された日時。 キーワード 文書のキーワード。 改訂番号 文書の改訂番号。 件名 文書の件名。 役職 文書のタイトル。 会社 文書の会社プロパティー値。 カテゴリー 文書のカテゴリー。 マネージャー 文書の管理者。 カスタム・プロパティー 文書のカスタム・プロパティー。 抽出するカスタム・プロパティーの名前を指定する必要があります。
- シート情報
- 次の表は、シート情報として抽出できる情報をリストしています。
表 5. シート情報として抽出できるデータ データ 説明 シート名 Microsoft Excel シートの名前。 ヘッダー (左、中央、右) 指定された位置のヘッダー。 フッター (左、中央、右) 指定された位置のフッター。
- 行情報
- 次の表は、行情報として抽出できる情報をリストしています。
表 6. 行情報として抽出できるデータ データ 説明 行番号 シート内の Microsoft Excel 行番号。 最初の行番号は 1 です。 非表示 行が非表示かどうか。 この行、またはこの行が属するシートが非表示の場合に true を書き込みます。
- セル情報(T)
- Microsoft Excel 列またはセルの位置に基づいてセル情報を抽出できます。 Microsoft Excelの列に基づいてセル情報を抽出する場合、データ範囲内の相対的な位置に基づいてソースのMicrosoft Excelの列を指定することができます。
ランタイム列伝搬
でIBMDataStage、メタデータで定義されていない追加の列をジョブの残りの部分に伝播するようにジョブを構成できます。 このプロセスは、ランタイム列伝搬 (RCP) と呼ばれます。
ランタイム列伝搬が有効になっている場合、Excel ステージは、最初のデータ範囲に基づいて Microsoft Excel 列を伝搬します。 ファイル名にワイルドカード文字が使用されている場合は、式に一致する最初のファイルが使用されます。 非表示列プロパティーの設定により、非表示列が伝搬されるかどうかが決まります。 伝搬された Microsoft Excel 列ごとに、セル値のみが抽出されます。 ファイル名、シート名、行番号などの情報を抽出するために、構成ウィンドウで追加の列を定義することができます。
列の命名規則
IBMDataStage列の名前は、最初のデータ範囲の Microsoft Excel 列文字に基づいて付けられます。 列名には接頭部 "Column_" が付き、その後に Microsoft Excel の列文字が続きます。 例えば、Column_A、Column_B、Column_C などとなります。
ジョブがすでにその名前の列を持っている場合、ジョブは停止する。
データ・タイプ
Excel ステージによって追加されるすべての列は、長さが未定義の Unicode Varchar タイプです。