0 / 0
Torna alla versione inglese della documentazione

Nodo Campione

Ultimo aggiornamento: 12 feb 2025
Nodo di esempio (SPSS Modeler)

È possibile utilizzare i nodi Campione per selezionare un sottoinsieme di record per l'analisi, oppure per specificare una percentuale di record da scartare. Sono supportati vari tipi di campione, inclusi campioni stratificati, raggruppati e non casuali (strutturati).

Il campionamento può essere utilizzato per vari motivi:

  • Per migliorare le prestazioni stimando i modelli in un sottoinsieme di dati. I modelli stimati da un campione sono spesso accurati quanto i modelli derivati dall'insieme di dati completo. E possono essere ancora più precisi se è possibile utilizzare le prestazioni migliorate per sperimentare con più metodi di quanto si potrebbe altrimenti tentare.
  • Per selezionare gruppi di record o di transazioni correlati per l'analisi, per esempio per selezionare tutti gli elementi di un carrello (o paniere) per gli acquisti online, oppure tutte le proprietà in una specifica vicinanza.
  • Per identificare unità o casi per l'ispezione casuale a fini di controllo qualità, prevenzione delle frodi o sicurezza.
Nota: se si desidera semplicemente ripartire i dati in campioni di addestramento e di test ai fini della convalida, è possibile utilizzare invece un nodo Partizione. Per ulteriori informazioni, consultare Nodo partizione.

Tipi di campioni

Campioni raggruppati. Gruppi o cluster di campioni anziché unità singole. Per esempio, si supponga di avere un file di dati con un record per studente. Se si raggruppa per scuola e la dimensione del campione è del 50%, viene scelto il 50% delle scuole e vengono scelti tutti gli studenti di ciascuna delle scuole selezionate. Gli studenti delle altre scuole vengono ignorati. In media, ci si aspetta che circa il 50% degli studenti venga scelto, ma poiché le scuole variano in dimensioni, la percentuale potrebbe non essere esatta. Analogamente, è possibile raggruppare gli articoli del carrello in base all'ID transazione per essere certi che siano mantenuti tutti gli articoli delle transazioni selezionate.

Campioni stratificati. Campioni selezionati in modo indipendente all'interno di sottogruppi di popolazione che non si sovrappongono, o strati. Per esempio, è possibile fare in modo che uomini e donne siano campionati in proporzioni uguali, oppure che sia rappresentata ogni regione o gruppo socio-economico all'interno di una popolazione urbana. È anche possibile specificare una dimensione di esempio diversa per ogni strato (ad esempio, se si pensa che un gruppo sia sottorappresentato nei dati originali).

Campionamento sistematico o 1-ogni-n. Se è difficile ottenere la selezione casuale, è possibile campionare le unità in modo sistematico (a un intervallo fisso) o sequenziale.

Pesi di campionamento. I pesi di campionamento vengono calcolati automaticamente durante la formulazione di un campione complesso e corrispondono approssimativamente alla "frequenza" con cui ogni unità campionata è rappresentata nei dati originali. Pertanto, la somma dei pesi nel campione stima le dimensioni dei dati originali.

Lista di campionamento

Una lista di campionamento definisce la fonte potenziale di casi da includere in un campione o studio. A volte, è possibile identificare ogni membro di una popolazione e includerlo in un campione, ad esempio, quando si campionano elementi che escono da una linea di produzione. Più spesso, non sei in grado di accedere a tutti i casi possibili. Ad esempio, non si può essere sicuri di chi voterà in un'elezione fino a dopo l'elezione. In questo caso, è possibile utilizzare il registro elettorale come quadro di campionamento anche se alcune persone registrate non voteranno. E alcune persone potrebbero votare pur non essendo state elencate al momento in cui hai controllato il registro. Le persone non incluse nella lista di campionamento non potranno essere campionate. Se la lista di campionamento rispecchi fedelmente la natura della popolazione che si sta tentando di valutare è una questione che andrà gestita nei singoli casi della vita reale.