0 / 0
資料の 英語版 に戻る

Microsoft Excelからデータを抽出する(DataStage)

最終更新: 2025年3月12日
DataStage での Microsoft Excel からのデータの抽出 (Excel ステージ)

Excelステージを使用すると、Microsoft Excelファイルの選択したデータ範囲から複数の種類のデータを抽出できます。

データ範囲

Excel ステージを使用すると、Microsoft Excel スプレッドシート内の指定されたデータ範囲からデータを抽出できます。

データ範囲は、セル、行、列、または 1 つ以上の連続したセル・ブロックを含むセルの選択を表します。 データ範囲は範囲式で指定する。 Excel ステージでは、範囲式を使用して、抽出するデータ範囲を指定できます。

例えば、Employee_Salary!A1:G8 は、Employee_Salary スプレッドシート内の、最初のセルが A1 で最後のセルが G8 であるデータ範囲を示します。

表 1. Microsoft Excelファイルの例:Employee_Salaryスプレッドシート
1 A
EMPNO
B
FIRSTNAME
C
LASTNAME
D
DEPT
E
JOB
F
SALARY
G
BONUS
2 20 MICHAEL THOMPSON B01 MANAGER 94250 800
3 30時間まで SALLY KWAN C01 MANAGER 98250 800
4 60 IRVING STERN D11 MANAGER 72250 500
5 70 EVA PULASKI D21 MANAGER 96170 700
6 50 JOHN GEYER E01 MANAGER 80175 800
7 90 ELEEN HENDERSON E11 MANAGER 89750 600
8 100 THEODORE SPENSER E21 MANAGER 86150 500

Excelステージは、指定されたデータ範囲内のMicrosoft Excelの行と列をIBM® DataStage®の行と列にマッピングし、レコードを抽出します。

次の表は、範囲式が Employee_Salary の場合に Excel のステージで抽出されるレコードについて説明したものです!A2:G8.

表 2. DataStage の行および列の例
EMPNO FIRSTNAME LASTNAME DEPT JOB SALARY BONUS
20 MICHAEL THOMPSON B01 MANAGER 94250 800
30時間まで SALLY KWAN C01 MANAGER 98250 800
60 IRVING STERN D11 MANAGER 72250 500
70 EVA PULASKI D21 MANAGER 96170 700
50 JOHN GEYER E01 MANAGER 80175 800
90 ELEEN HENDERSON E11 MANAGER 89750 600
100 THEODORE SPENSER E21 MANAGER 86150 500

最初の行のセルの値を IBM InfoSphere® DataStage 列名として使用する場合は、列ヘッダ プロパティを使用できます。 列ヘッダ・プロパティ データ範囲の最初の行を設定し、範囲式をEmployee_Salaryと指定した場合!A1:G8 と指定すると、最初の行はヘッダーとして扱われ、最初の行のセルの値はジョブ内のデフォルトの DataStage 列名として使用されます。 Excel ステージを使用して、デザイン時に範囲式を生成できます。

Microsoft Excel から抽出できるデータのタイプ

Excel ステージを使用して、Microsoft Excel ファイルからいくつかのタイプのデータを抽出できます。

ファイル・プロパティー
次の表は、ファイル・プロパティーとして抽出できる情報をリストしています。
表 3. ファイル・プロパティーとして抽出できるデータ
データ 説明
ファイル名 ファイルの名前。 例えば、 Workbook1.xls
ファイル・パス ファイルのパス。 例えば、 C:\excel\Workbook1.xls
ファイル・サイズ ファイルのサイズ (バイト単位)。
最終変更日時 ファイルが最後に変更された日時。
文書プロパティー
次の表は、文書プロパティーとして抽出できる情報をリストしています。
表 4。 文書プロパティーとして抽出できるデータ
データ 説明
著者一覧 文書の作成者。
ドキュメント・コメント 文書のコメント。
コンテンツ作成日 文書が作成された日時。
キーワード 文書のキーワード。
改訂番号 文書の改訂番号。
件名 文書の件名。
役職 文書のタイトル。
会社 文書の会社プロパティー値。
カテゴリー 文書のカテゴリー。
マネージャー 文書の管理者。
カスタム・プロパティー 文書のカスタム・プロパティー。 抽出するカスタム・プロパティーの名前を指定する必要があります。
シート情報
次の表は、シート情報として抽出できる情報をリストしています。
表 5. シート情報として抽出できるデータ
データ 説明
シート名 Microsoft Excel シートの名前。
ヘッダー (左、中央、右) 指定された位置のヘッダー。
フッター (左、中央、右) 指定された位置のフッター。
行情報
次の表は、行情報として抽出できる情報をリストしています。
表 6. 行情報として抽出できるデータ
データ 説明
行番号 シート内の Microsoft Excel 行番号。 最初の行番号は 1 です。
非表示 行が非表示かどうか。 この行、またはこの行が属するシートが非表示の場合に true を書き込みます。
セル情報(T)
Microsoft Excel 列またはセルの位置に基づいてセル情報を抽出できます。 Microsoft Excelの列に基づいてセル情報を抽出する場合、データ範囲内の相対的な位置に基づいてソースのMicrosoft Excelの列を指定することができます。
次の表は、セル情報として抽出できる情報をリストしています。
表 7. セル情報として抽出できるデータ
データ 説明
セルの値。 セルに数式がある場合、ステージはキャッシュから値を抽出します。
コメント セルのコメント。
コメントの作成者 セルのコメントの作成者。
CLEM 式 テキスト内のセルの数式 (テキスト)。
ハイパーリンク・タイプ セルのハイパーリンクのタイプ。
ハイパーリンク・アドレス このハイパーリンクが指すアドレス。 書式はハイパーリンクの種類によって異なります。
ハイパーリンク・ラベル このハイパーリンクのテキスト・ラベル。

ランタイム列伝搬

IBMDataStage、メタデータで定義されていない追加の列をジョブの残りの部分に伝播するようにジョブを構成できます。 このプロセスは、ランタイム列伝搬 (RCP) と呼ばれます。

ランタイム列伝搬が有効になっている場合、Excel ステージは、最初のデータ範囲に基づいて Microsoft Excel 列を伝搬します。 ファイル名にワイルドカード文字が使用されている場合は、式に一致する最初のファイルが使用されます。 非表示列プロパティーの設定により、非表示列が伝搬されるかどうかが決まります。 伝搬された Microsoft Excel 列ごとに、セル値のみが抽出されます。 ファイル名、シート名、行番号などの情報を抽出するために、構成ウィンドウで追加の列を定義することができます。

列の命名規則

IBMDataStage列の名前は、最初のデータ範囲の Microsoft Excel 列文字に基づいて付けられます。 列名には接頭部 "Column_" が付き、その後に Microsoft Excel の列文字が続きます。 例えば、Column_A、Column_B、Column_C などとなります。

ジョブがすでにその名前の列を持っている場合、ジョブは停止する。

データ・タイプ

Excel ステージによって追加されるすべての列は、長さが未定義の Unicode Varchar タイプです。