サンプリング・ノードを使用して、分析のためにレコードのサブセットを選択、または破棄するレコードの割合を指定することができます。 層化サンプル、クラスター化サンプル、非ランダム (構造化) サンプルなど、さまざまなサンプル・タイプがサポートされています。
サンプリングを使用する理由は、次のとおりです。
- データのサブセットのモデルを推定してパフォーマンスを向上する。 サンプルから推定されるモデルは、多くの場合、完全なデータ・セットから導出されたモデルと同程度に正確です。 また、改善されたパフォーマンスを使用して、他の方法よりも多くの方法を試すことができる場合は、これらの方法の方がさらに正確である可能性があります。
- オンライン ショッピングのカートのすべてのアイテムを選択または特定の隣接地域のすべての資産を選択するなど、分析のために換算するレコードまたはトランザクションのグループを選択する。
- 品質評価、不正防止、またはセキュリティーの対象となる無作為検査の単位またはケースを識別する。
サンプルの種類
クラスター化されたサンプル。 個々のユニットではなく、サンプル・グループまたはクラスター。 例えば、生徒ごとに 1 つのレコードを持つデータ・ファイルがあるとします。 学校ごとにクラスター化し、サンプル・サイズが 50% の場合、学校の 50% が選択され、選択された各学校のすべての生徒が選択されます。 他の学校の生徒は無視されます。 平均すると、生徒の約 50% が選ばれると予想されますが、学校の規模が異なるため、その割合は正確ではない可能性があります。 同様に、トランザクション ID によってショッピング カートのアイテムをクラスター化し、選択されたトランザクションのすべてのアイテムが含まれていることを確認します。
層化されたサンプル。 母集団または層の重複しないサブグループ内で独立してサンプルを選択します。 例えば、男性および女性を等しい割合でサンプリングされ、または都市部の人口の中ですべての地域または社会経済的グループが表示されるようにすることができます。 また、階層ごとに異なるサンプルサイズを指定することもできます (例えば、元のデータで 1 つのグループが過小評価されていると考えられる場合など)。
体系的または n 件ごとのサンプリング: 無作為な選択が難しい場合に、系統的に (固定間隔で) または順序に従って、単位のサンプリングを行うことができます。
抽出重み付け: 重みのサンプリングは、複雑なサンプルを引き出す際に自動的に計算され、サンプルされた各単位が元のデータに表示される「度数」にほとんど対応します。 そのため、サンプルの重みの合計で、元のデータのサイズを推定する必要があります。
サンプリング・フレーム
サンプリング・フレームによって、サンプルまたは調査に含まれるケースの可能性のあるソースを定義します。 場合によっては、生産ラインから項目を抽出するときなどに、母集団のすべてのメンバーを識別し、それらのいずれか 1 つをサンプルに含めることができます。 多くの場合、考えられるすべてのケースにアクセスできるわけではありません。 例えば、選挙が行われるまで、誰が選挙で投票するかを確信することはできません。 この場合、一部の登録者が投票しなくても、選挙人名簿をサンプリング・フレームとして使用することができます。 また、登録簿を確認した時点で登録されていなかったにもかかわらず、投票する人もいるかもしれません。 サンプリング・フレームに含まれない人は、サンプリングされる可能性はありません。 サンプリング・フレームが評価しようとしている母集団に本質的に十分近いかどうかは、それぞれの実際のケースで処理する必要のある問題です。