El nodo de Minería de textos utiliza técnicas lingüísticas y de frecuencia para extraer conceptos clave del texto y crear categorías con estos conceptos y otros datos. Utilice el nodo para explorar el contenido de los datos del texto o para producir un nugget del modelo de concepto o un nugget del modelo de categoría.
- La modalidad Generar directamente (nugget de modelo de concepto) genera automáticamente un nugget de modelo de categoría o concepto cuando ejecuta el nodo.
- El Generar de forma interactiva (nugget de modelo de categoría) es un enfoque más práctico y exploratorio. Puede utilizar esta modalidad no sólo para extraer conceptos, crear categorías y refinar los recursos lingüísticos, sino también para ejecutar análisis de enlaces de texto y explorar clústeres. Esta modalidad de compilación inicia Text Analytics Workbench.
Y puede utilizar el nodo Minería de textos para generar uno de los dos nuggets de modelo de minería de textos:
- Los nuggets de modelo de concepto descubren y extraen conceptos importantes de los datos de texto estructurados o no estructurados.
- Los nuggets del modelo de categoría puntúan y asignan documentos y registros a categorías, que se componen de los conceptos extraídos (y patrones).
Los conceptos y patrones extraídos y las categorías de los nuggets de modelo se pueden combinar con datos estructurados existentes, como la demografía, para obtener mejores decisiones y más centradas. Por ejemplo, si los clientes informan con frecuencia sobre problemas de inicio de sesión como principal impedimento para realizar tareas de gestión de cuentas en línea, puede incorporar "problemas de inicio de sesión" en sus modelos.
Orígenes de datos y recursos lingüísticos
Los nodos de modelado de minería de textos aceptan datos de texto de los nodos de importación.
También puede cargar plantillas personalizadas y paquetes de análisis de texto directamente en el nodo Minería de textos para utilizarlos en el proceso de extracción.
Conceptos y nuggets del modelo de concepto
Durante el proceso de extracción, los datos de texto se exploran y analizan para identificar palabras individuales importantes, como election
o peace
, y frases de palabras como presidential election
, election of the president
o peace treaties
. Estas palabras y frases se conocen colectivamente con el nombre de términos. Utilizando los recursos lingüísticos, se extraen los términos relevantes y los términos similares se agrupan bajo un término principal que se denomina concepto.
Esta agrupación significa que un concepto puede representar varios términos subyacentes. Por ejemplo, el concepto salary
se ha extraído de una encuesta de satisfacción de los empleados. Al observar los registros asociados con salary
, ha observado que salary
no siempre está presente en el texto, sino que determinados registros contienen algo similar, como los términos wage
, wages
y salaries
. Estos términos se agrupan bajo salary
ya que el motor de extracción ha considerado que son similares o ha determinado que son sinónimos basándose en reglas de proceso o en recursos lingüísticos. En este caso, cualquier documento o registro que contenga alguno de estos términos se trataría como si contuviera la palabra salary
.
Si desea ver qué términos se agrupan bajo un concepto, puede explorar el concepto en el entorno de trabajo de Text Analytics o ver qué sinónimos se muestran en el modelo de concepto.
- Para explorar y analizar los conceptos que se descubrieron en el texto de origen original o para identificar rápidamente documentos de interés.
- Para aplicar este modelo a nuevos registros de texto o documentos para identificar rápidamente los mismos conceptos clave en los nuevos documentos/registros. Por ejemplo, puede aplicar el modelo al descubrimiento en tiempo real de conceptos clave en datos de bloc de notas de un centro de atención telefónica.
Categorías y nuggets del modelo de categoría
Puede crear categorías que representen conceptos o temas de nivel superior para capturar las ideas, conocimientos y actitudes clave expresadas en el texto. Las categorías están formadas por un conjunto de descriptores, como por ejemplo conceptos, tipos y reglas. Juntos, estos descriptores se utilizan para identificar si un registro o documento pertenece o no a una categoría. Un documento o registro se puede explorar para ver si su texto coincide con un descriptor. Si se encuentra una coincidencia, el documento se asigna a esa categoría. Este proceso se denomina asignación a categorías.
Las categorías se pueden crear automáticamente utilizando el sólido conjunto de técnicas automatizadas de SPSS Modeler. También puede compilarlos manualmente utilizando cualquier información adicional que pueda tener en relación con los datos, o una combinación de ambos. También puede cargar un conjunto de categorías incorporadas de un paquete de análisis de texto mediante los valores del modelo de este nodo. La creación manual de categorías o el refinamiento de categorías sólo se puede realizar a través de Text Analytics Workbench.
Un nugget del modelo de categoría contiene un conjunto de categorías junto con sus descriptores. El modelo se puede utilizar para categorizar un conjunto de documentos o registros basados en el texto de cada documento o registro. Se lee cada documento o registro y luego se asigna a cada categoría para la que se haya encontrado una coincidencia de descriptor. De este modo, un documento o registro se podría asignar a más de una categoría. Por ejemplo, puede utilizar nuggets de modelo de categoría para ver las ideas esenciales en respuestas de encuesta abiertas o en un conjunto de entradas de blog.