0 / 0
Volver a la versión inglesa de la documentación

Nodo Muestrear

Última actualización: 12 feb 2025
Nodo Muestrear (SPSS Modeler)

Puede utilizar los nodos Muestrear para seleccionar un subconjunto de análisis o especificar una proporción de registros que descartar. Se soportan varios tipos de muestra, incluyendo muestras estratificadas, agrupadas y no aleatorias (estructuradas).

El muestreo se puede utilizar por varias razones:

  • Para mejorar el rendimiento por modelos de estimación en un subconjunto de datos. Los modelos que se estiman a partir de una muestra suelen ser tan precisos como los modelos derivados del conjunto de datos completo. Y pueden ser aún más precisos si puede utilizar el rendimiento mejorado para experimentar con más métodos de los que de otro modo podría intentar.
  • Para seleccionar grupos de registros relacionados o transacciones de análisis, como la selección de todos los elementos en un carro de la compra en línea (o cesta de la compra) o todas las propiedades en una vecindad específica.
  • Para identificar las unidades o los casos de inspección aleatoria en busca de la garantía de calidad, la prevención de fraudes o la seguridad.
Nota: Si simplemente desea realizar una partición de sus datos en muestras de comprobación y entrenamiento con fines de validación, puede utilizar un nodo Partición. Para obtener más información, consulte Nodo de partición.

Tipos de muestras

Muestras agrupadas en clústeres. Grupos o clústeres de muestra en lugar de unidades individuales. Por ejemplo, supongamos que tiene un archivo de datos con un registro por alumno. Si se agrupa por escuela y el tamaño de la muestra es del 50%, se elige el 50% de las escuelas y se seleccionan todos los estudiantes de cada una de las escuelas seleccionadas. Los estudiantes en las otras escuelas son ignorados. En promedio, uno esperaría que alrededor del 50% de los estudiantes fueran escogidos, pero debido a que las escuelas varían en tamaño, el porcentaje podría no ser exacto. De forma similar, podría agrupar elementos del carro de la compra por ID de transacciones para asegurarse de que se conservan todos los elementos de las transacciones seleccionadas.

Muestras estratificadas. Selecciona muestras de forma independiente dentro de subgrupos no superpuestos de población o estratos. Por ejemplo, puede asegurar que se toman hombres y mujeres en proporciones iguales o que se representan todas las regiones o grupos socioeconómicos dentro de una población urbana. También puede especificar un tamaño de muestra diferente para cada estrato (por ejemplo, si cree que un grupo está infrarrepresentado en los datos originales).

Muestreo sistemático o 1-de cada-n. Cuando es difícil de obtener una selección aleatoria, las unidades se pueden muestrear de forma sistemática (a un intervalo fijo) o secuencial.

Ponderaciones muestrales. Las ponderaciones de muestreo se calculan automáticamente al extraer una muestra compleja y corresponde aproximadamente a la "frecuencia" que cada unidad muestreada representa en los datos originales. Por consiguiente, la suma de las ponderaciones sobre la muestra debe calcular el tamaño de los datos originales.

Marco de muestreo

Un marco de muestreo define el origen potencial de casos que se deben incluir en una muestra o estudio. A veces, es factible identificar a cada miembro de una población e incluir cualquiera de ellos en una muestra, por ejemplo, al muestrear elementos que salen de una línea de producción. Más a menudo, no puede acceder a todos los casos posibles. Por ejemplo, no puede estar seguro de quién votará en una elección hasta después de que se produzca la elección. En este caso, usted podría usar el registro electoral como su marco de muestreo incluso si algunas personas registradas no votan. Y algunas personas podrían votar a pesar de no haber sido listadas en el momento en que usted revisó el registro. Cualquiera fuera del marco de muestreo no tiene posibilidades de poder incluirse en la muestra. La cuestión de si su marco de muestreo es lo bastante cercano a la población que intenta evaluar debe estudiarse para cada caso real.