Estrazione di dati di testo con l'analisi testuale
Ultimo aggiornamento: 12 feb 2025
Estrazione di dati testuali con Text Analytics in SPSS Modeler
SPSS Modeler offre nodi specializzati nella gestione del testo. I nodi di Text Analytics offrono potenti funzionalità di analisi del testo che utilizzano tecnologie linguistiche avanzate e l'elaborazione del linguaggio naturale (NLP). Possono elaborare rapidamente una grande varietà di dati testuali non strutturati ed estrarre i concetti chiave. La Text Analytics può anche organizzare e raggruppare questi concetti in categorie.
Circa l'80% dei dati conservati all'interno di un'organizzazione sono sotto forma di documenti di testo, ad
esempio report, pagine web, e-mail e note del call center. Il testo è un fattore chiave per consentire a
un'organizzazione di acquisire una migliore comprensione del comportamento dei propri clienti. Un sistema che incorpora la tecnologia NLP può estrarre in modo intelligente i concetti, incluse le frasi composte. Inoltre, la conoscenza della lingua sottostante consente la classificazione dei termini in gruppi
correlati, ad esempio prodotti, organizzazioni o persone, utilizzando il significato e il contesto del termine. Di conseguenza, è possibile determinare rapidamente la rilevanza delle informazioni per le proprie esigenze. Questi concetti e categorie estratti possono essere combinati con i dati strutturati esistenti, come quelli demografici, e applicati alla modellazione in SPSS Modeler per ottenere decisioni migliori e più mirate.
I sistemi linguistici sono sensibili alla conoscenza: più informazioni sono contenute nei dizionari,
maggiore è la qualità dei risultati. Text Analytics fornisce una serie di risorse linguistiche:
dizionari per termini e sinonimi, librerie e modelli. Questi nodi consentono inoltre di sviluppare e
perfezionare queste risorse linguistiche nel proprio contesto. L'ottimizzazione delle risorse linguistiche è
spesso un processo iterativo ed è necessario per un richiamo dei concetti accurato e per la categorizzazione. Sono inclusi inoltre modelli, librerie e dizionari personalizzati per domini specifici, quali CRM e genomica.
Suggerimenti per iniziare:
Guardate il seguente video per una panoramica sulla Text Analytics.
In generale, chiunque debba abitualmente esaminare grandi volumi di documenti per
identificare gli elementi chiave per un'ulteriore esplorazione può trarre vantaggio dall'utilizzo di Text
Analytics. Esempi di alcune applicazioni specifiche includono:
Ricerca scientifica e medica. Esplorare materiali secondari di
ricerca, come notifiche di brevetti, articoli di riviste e pubblicazioni di protocolli. Identificare le
associazioni che erano precedentemente sconosciute (ad esempio un medico associato a un prodotto
particolare), proponendo percorsi per ulteriori esplorazioni. Minimizzare il tempo impiegato nel processo di
rilevamento dei farmaci. Utilizzare come supporto nella ricerca genomica.
Ricerca di investimenti. Esaminare report quotidiani degli
analisti, articoli di giornale e comunicati stampa aziendali per identificare i punti chiave delle strategie
o le variazioni di mercato. L'analisi di tendenza di tali informazioni rivela problematiche o opportunità
emergenti per un'azienda o un'industria in un periodo di tempo.
Rilevamento di frodi. Utilizzare in caso di frodi bancarie o
nel campo della salute pubblica per rilevare anomalie e scoprire segnali di allarme in grandi quantità di
testo.
Ricerca di mercato. Utilizzare nelle attività di ricerca di
mercato per identificare gli argomenti chiave nelle risposte ai sondaggi aperti.
Analisi di blog e di feed web. Esplorare e creare modelli
utilizzando le idee chiave trovate in feed di notizie, blog, ecc.
CRM. Creare modelli utilizzando dati provenienti da tutti i
punti di contatto dei clienti, come e-mail, transazioni e sondaggi.
Nodi
Copy link to section
Oltre ai numerosi nodi standard di SPSS Modeler, è possibile lavorare con i nodi di text mining per incorporare la potenza dell'analisi del testo nei flussi. Questi nodi sono disponibili nella
palette dei nodi, sotto Text Analytics:
Il nodo Identificativo lingua è un nodo di processo che
esegue la scansione del testo di origine per determinare in quale lingua è scritto e poi lo contrassegna
in un nuovo campo. Inizialmente progettato per essere utilizzato con grandi quantità di dati, questo nodo è
particolarmente utile quando le origini dati sono in più di una lingua e si desidera elaborare solo una
lingua.
Il nodo TLA estrae i concetti e
identifica anche le relazioni tra i concetti in base a pattern ricorrenti nel testo. È possibile utilizzare
l'estrazione dei pattern per scoprire le relazioni tra i concetti, così come eventuali opinioni o
qualificatori collegati a questi concetti. Il nodo TLA offre un modo più diretto
per identificare ed estrarre pattern dal testo e aggiungere quindi i risultati del pattern al dataset nel
flusso. Ma è possibile eseguire la TLA anche con una sessione di Text Analytics Workbench tramite il nodo di modellazione Text Mining.
Il nodo Text Mining utilizza metodi linguistici per estrarre concetti chiave dal
testo, consente di creare categorie con tali concetti e altri dati, e offre la possibilità
di identificare relazioni e associazioni tra i concetti in base a modelli conosciuti
(text link analysis). È possibile utilizzare questo nodo per esplorare i contenuti dei dati di
testo o per produrre un modello concettuale o un modello di categoria. I concetti e le categorie possono
essere combinati con dati strutturati esistenti, ad esempio dati demografici, e applicati alla modellazione.
Informazioni sui cookie del presente sitoPer il corretto funzionamento, i nostri siti Web richiedono alcuni cookie (richiesto). Inoltre, con il suo consenso, potrebbero essere utilizzati altri cookie per l'analisi dell'utilizzo del sito, per migliorare l'esperienza utente e per scopi pubblicitari.Per ulteriori informazioni, consultare le Preferenze cookie. Visitando il nostro sito web, accettate il trattamento delle informazioni da parte nostra come descritto nelladichiarazione sulla privacy di IBM.Per consentire una corretta navigazione, le preferenze per i cookie dell'utente verranno condivise sui domini Web IBM qui elencati.