0 / 0
Torna alla versione inglese della documentazione

Nodo Distinto

Ultimo aggiornamento: 12 feb 2025
Nodo Distinto (SPSS Modeler)

I record duplicati di un insieme di dati devono essere rimossi prima di iniziare il data mining. Ad esempio, in un database di marketing, è possibile che gli utenti vengano visualizzati più volte con indirizzo o dati della società diversi. È possibile utilizzare il nodo Distinto per individuare o rimuovere record duplicati nei propri dati oppure per creare un singolo record composito da un gruppo di record duplicati.

Per utilizzare il nodo Distinto, è necessario prima definire un insieme di campi chiave che determinano i casi in cui due record vengono considerati duplicati.

Se non vengono selezionati tutti i campi come campi chiave, due record "duplicati" potrebbero non essere realmente identici perché potrebbero avere differenze nei valori dei campi rimanenti. In questo caso, è possibile anche definire un criterio di ordinamento applicato all'interno di ciascun gruppo di record duplicati. Tale criterio di ordinamento fornisce un ulteriore controllo sul record considerato come primo all'interno di un gruppo. In caso contrario, tutti i duplicati sono considerati intercambiabili e potrebbe selezionato qualsiasi record. L'ordine di entrata dei record non viene preso in considerazione, quindi non è utile utilizzare un nodo Ordina a monte (vedere "Ordinamento dei record nel nodo Elimina duplicati" in questa pagina).

Modalità. Specificare se creare un record composito o se includere o escludere (scartare) il primo record.

  • Crea un record composto per ogni gruppo. Fornisce un modo per aggregare i campi non numerici. Selezionando questa opzione, viene resa disponibile la scheda Composito quando viene specificata la modalità di creazione dei record compositi.
  • Includi solo primo record in ogni gruppo. Seleziona il primo record da ciascun gruppo di record duplicati ed elimina gli altri. Il primo record è determinato dall'ordine definito nell'impostazione All'interno dei gruppi, ordina i record pere non dall'ordine di entrata dei record.
  • Scarta solo il primo record in ogni gruppo. Elimina il primo record da ciascun gruppo di record duplicati e seleziona gli altri. Il primo record è determinato dall'ordine definito nell'impostazione All'interno dei gruppi, ordina i record pere non dall'ordine di entrata dei record. Questa opzione può essere utilizzata per rilevamenti duplicati nei dati in modo da analizzarli in seguito all'interno del flusso.

Campi chiave da raggruppare. Elenca il campo o i campi utilizzati per stabilire se i record sono identici. Sarai in grado di:

  • Aggiungere campi a questo elenco utilizzando il pulsante di selezione campi.
  • Eliminare i campi dall'elenco utilizzando il pulsante X (rimuovi) rosso.

All'interno dei gruppi, ordina record per. Elenca i campi utilizzati per determinare il modo in cui i record vengono ordinati in ciascun gruppo di duplicati e se viene utilizzato l'ordinamento crescente o decrescente. Sarai in grado di:

  • Aggiungere campi a questo elenco utilizzando il pulsante di selezione campi.
  • Eliminare i campi dall'elenco utilizzando il pulsante X (rimuovi) rosso.
  • Spostare i campi utilizzando i pulsanti su o giù, se si esegue l'ordinamento in base a più campi.

È necessario specificare un criterio di ordinamento se è stato scelto di includere o escludere il primo record in ciascun gruppo ed è importante quale record viene considerato come primo.

È anche possibile che si desideri specificare un criterio di ordinamento se è stato scelto di creare un record composito, per alcune opzioni nella scheda Composito.

Specificare se, per impostazione predefinita, i record vengono disposti secondo l'ordine Crescente o Decrescente dei valori della chiave di ordinamento.

Ordinamento dei record nel nodo Distinto

Se l'ordine dei record all'interno di un gruppo di duplicati è un fattore importante, è necessario specificare l'ordine utilizzando l'opzione All'interno dei gruppi, ordina record per nel nodo Distinto. Non utilizzare un nodo Ordina upstream. Non viene considerato l'ordine di entrata dei record, ma solo l'ordine specificato all'interno del nodo.

Se non viene specificato alcun campo di ordinamento (o viene specificato un numero insufficiente di campi di ordinamento), i record all'interno di ciascun gruppo di duplicati non saranno ordinati (oppure saranno ordinati in modo non corretto) ed i risultati potrebbero essere imprevedibili.

Ad esempio, si supponga di disporre di un insieme molto grande di record di log relativi ad un numero di macchine. Il log contiene dati come quelli riportati di seguito:

Tabella 1. Dati di log della macchina
Data/ora Apprendimento Temperatura
17:00:22 Macchina A 31
13:11:30 Macchina B 26
16:49:59 Macchina A 30
18:06:30 Macchina X 32
16:17:33 Macchina A 29
19:59:04 Macchina C 35
19:20:55 Macchina Y 34
15:36:14 Macchina X 28
12:30:41 Macchina Y 25
14:45:49 Macchina C 27
19:42:00 Macchina B 34
20:51:09 Macchina Y 36
19:07:23 Macchina X 33

Per ridurre il numero di record all'ultimo record per ogni macchina, utilizzare Machine come campo chiave e utilizzare Timestamp come campo di ordinamento (in ordine decrescente). L'ordine di input non ha effetto sul risultato perché la selezione dell'ordinamento specifica quale delle diverse righe relative ad una determinata macchina deve essere restituita; l'output di dati finale è simile a quello riportato di seguito.

Tabella 2. Dati di log della macchina ordinati
Data/ora Apprendimento Temperatura
17:00:22 Macchina A 31
19:42:00 Macchina B 34
19:59:04 Macchina C 35
19:07:23 Macchina X 33
20:51:09 Macchina Y 36