Este tutorial le ayuda a analizar texto utilizando nodos especializados en el manejo de texto. Por ejemplo, puede realizar análisis de sentimiento.
En este tutorial, el director de un hotel quiere analizar las reseñas del hotel para ver qué opinan los clientes. Los comentarios expresan opiniones sobre el personal del hotel, comodidad, limpieza, precio, y otras áreas de interés.
Pruebe el tutorial
En esta guía de aprendizaje, realizará estas tareas:
- Tarea 1: Abrir el proyecto de ejemplo
- Tarea 2: Examinar el nodo Activos de datos
- Tarea 3: Examinar el nodo Text Mining
- Tarea 4: Ajuste de los resultados en Text Analytics Workbench
- Tarea 5: Construir el modelo
- Tarea 6: Visualizar los comentarios
- Tarea 7: Examinar el nodo Análisis de enlaces de texto
Ejemplo de flujo de modelización y conjunto de datos
Este tutorial utiliza el flujo Hotel Satisfaction en el proyecto de ejemplo. El flujo utiliza nodos de Text Analytics para analizar revisiones ficticias sobre el hotel. El archivo de datos utilizado es hotelSatisfaction.csv. La siguiente imagen muestra el flujo del modelador de muestra.
Tarea 1: Abrir el proyecto de ejemplo
El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:
- En ' watsonx, en el menú Navegación ' , seleccione Proyectos > Ver todos los proyectos.
- Haga clic en ProyectoSPSS Modeler.
- Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.
' Comprueba tu progreso
La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.
Tarea 2: Examinar el nodo Activos de datos
Satisfacción hotelera incluye varios nodos. Siga estos pasos para examinar el nodo Activo de datos:
- En la pestaña Activos, abra el flujo del modelador Satisfacción hotelera y espere a que se cargue el lienzo.
- Haga doble clic en el nodo hotelSatisfaction.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo hotelSatisfaction.csv en el proyecto.
- Revise las propiedades del formato de archivo.
- Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.
' Comprueba tu progreso
La siguiente imagen muestra el nodo de Activos de Datos. Ahora está listo para examinar el nodo Text Mining.
Tarea 3: Examinar el nodo Text Mining
La minería de textos es un proceso iterativo que identifica conceptos y patrones relevantes en los datos textuales. Cuando se ejecuta el nodo Text Mining, el motor de extracción lee los datos de texto, identifica los conceptos relevantes y asigna un tipo a cada uno. A continuación, puede revisar los resultados de la extracción utilizando Text Analytics Workbench para ajustar el proceso de extracción. Puede volver a ejecutar el nodo Text Mining para obtener nuevos resultados y, a continuación, evaluarlos. Observe el nodo Tipo situado entre el nodo Activos de datos y el nodo Minería de texto. El nodo Tipo es necesario para identificar correctamente los campos del conjunto de datos. Siga estos pasos para examinar el nodo Text mining:
- Haga doble clic en el nodo Comentarios (Text Mining) para ver sus propiedades.
- Establezca estas propiedades en la sección Campos:
- En el campo Texto, seleccione Comentarios.
- Para el campo ID, seleccione id.Nota: Sólo el campo Texto es obligatorio.
- En la sección Modelo, observe que el paquete de análisis de texto seleccionado es Satisfacción hotelera (inglés)/Tema + Opinión.
Un paquete de análisis de texto (PAT) es un conjunto predefinido de bibliotecas y recursos lingüísticos y no lingüísticos avanzados, que se agrupan con uno o varios conjuntos de categorías predefinidas. Si ningún paquete de análisis de texto es relevante para su aplicación, puede seleccionar en su lugar una plantilla de Recursos. Una plantilla de recursos es un conjunto predefinido de bibliotecas y recursos lingüísticos y no lingüísticos avanzados que se han perfeccionado para un dominio o uso concretos.
- En la sección Construir modelos, establezca estas propiedades:
- Compruebe que el campo Modos de construcción está establecido en Construir interactivamente (categoría modelo nugget). Posteriormente, al ejecutar el nodo, esta opción inicia Text Analytics Workbench, que es una interfaz interactiva en la que puede explorar y ajustar los resultados de la extracción.
- Compruebe que el campo Iniciar sesión por está configurado como Extraer conceptos y enlaces de texto. La opción Extracción de conceptos extrae sólo conceptos, mientras que la extracción TLA produce tanto conceptos como enlaces de texto que son conexiones entre temas (como servicio, personal y comida) y opiniones.
- Despliegue la sección Experto y compruebe que la opción Adaptar ortografía para una longitud mínima de caracteres de palabra de está seleccionada con un Límite ortográfico de '
5
. Esta opción aplica una técnica de agrupación difusa que ayuda a agrupar bajo un concepto las palabras que suelen contener algún error ortográfico o que tienen una ortografía parecida. El algoritmo de agrupación difusa elimina temporalmente las consonantes dobles o triples y todas las vocales (excepto la primera) de las palabras extraídas. Luego los compara para ver si son iguales. Por ejemplo, "location
y "locattoin
están agrupados. - Pulse Guardar.
- Pase el ratón por encima del nodo Comentarios (Text Mining) y haga clic en el icono Ejecutar ' .
- En el panel Resultados y modelos, haga clic en los resultados con el nombre Comentarios para abrir el Text Analytics Workbench.
' Comprueba tu progreso
La siguiente imagen muestra el Text Analytics Workbench. Ya está listo para afinar los resultados.
Tarea 4: Ajuste de los resultados en Text Analytics Workbench
El Text Analytics Workbench contiene los resultados de la extracción y el modelo de categorías que contiene el paquete de análisis de texto. Se trata de un banco de trabajo interactivo en el que puede explorar y ajustar los resultados extraídos, crear y refinar categorías y construir nuggets de modelos de categorías. Siga estos pasos para ajustar los resultados en Text Analytics Workbench:
Conceptos
- Haga clic en la pestaña Conceptos.
Durante el proceso de extracción, los datos de texto se analizan para identificar palabras sueltas interesantes o relevantes, como "
airport
o "location
, y frases de palabras, como "airport pick-up
. Estas palabras y frases se conocen colectivamente con el nombre de términos. A partir de los recursos lingüísticos, se extraen los términos pertinentes y los términos similares se agrupan en un término principal que se denomina concepto.De este modo, un concepto puede representar varios términos subyacentes. Depende de cómo se utilice el término en el texto y del conjunto de recursos lingüísticos que utilices.
- Haga clic en el icono Filtro "
- También puede utilizar un filtro para seleccionar un subconjunto de conceptos. La siguiente imagen muestra las diferentes opciones:
Si desea eliminar los filtros y mostrar todos los conceptos, haga clic en Borrar filtro.
Haga clic en Cancelar para cerrar el panel Filtro.
Enlaces de texto
- Haz clic en la pestaña Enlaces de texto.
El análisis de vínculos textuales (TLA) es una tecnología de concordancia de patrones que compara las reglas del TLA con los conceptos y relaciones extraídos que se encuentran en el texto. En la pestaña Enlaces de texto, puede construir y explorar los patrones TLA que se encuentran en sus datos de texto.
- Seleccione un Patrón de Tipo (por ejemplo, <Servicios> + <Positivo> para ver una vista previa del texto en el documento. Si el texto de la vista previa del documento está truncado, haga clic en el icono Ver documento completo ' para mostrar el texto completo.
Categorías
- Haga clic en la pestaña Categorías.
Puede crear y gestionar sus categorías. Una vez extraídos los conceptos y tipos de sus datos de texto, puede empezar a crear categorías automáticamente mediante técnicas como la inclusión de conceptos, la red semántica (sólo en inglés) o manualmente.
Dado que este flujo de ejemplo utiliza una plantilla de paquete de análisis de texto, el modelo de categorías ya está rellenado.
- Haga clic en Puntuar todo para puntuar los documentos o registros. Cada vez que se crea o actualiza una categoría, puede ver si algún texto coincide con un descriptor de una categoría específica. Si se encuentra una coincidencia, el documento o registro se asigna a esa categoría. El resultado es que la mayoría de los documentos o registros, si no todos, se asignan a categorías basadas en los descriptores de las categorías.
- Amplíe una categoría, por ejemplo, Servicios del hotel > Limpieza > Neg > sin limpiar.
- Visualice los documentos en la pestaña Vista previa y en la pestaña Descriptores para ver los datos de origen.
' Comprueba tu progreso
La siguiente imagen muestra la vista previa del documento de la categoría Limpieza. Ya está listo para construir el modelo.
Tarea 5: Construir el modelo
Una vez que termine de ajustar el proceso de extracción, podrá generar un modelo de categorías a partir de las personalizaciones y las categorías que haya creado. Siga estos pasos para construir y desplegar el modelo:
- Haga clic en Generar un modelo para generar un modelo de categoría.
- Haga clic en Construir para confirmar que desea generar un modelo de categoría.
- ¡Cuando veas el Éxito! haga clic en Volver al flujo.
- Haga clic en Guardar y salir para guardar los cambios y el nodo Text Mining en el flujo.El modelo de categoría generado se muestra en el lienzo de flujo.
- Observe los dos nodos del modelo de satisfacción en el flujo de ejemplo. Ahora que Text Analytics Workbench ha validado y generado un modelo de categorías, puede desplegarlo en su flujo y puntuar el mismo conjunto de datos o puntuar datos nuevos. Cada modelo utiliza un modo de puntuación diferente.
- Haga doble clic en el primer nodo Modelo de satisfacción.
- Expanda la sección Configuración para ver que este nodo utiliza el modo de puntuación Categorías como campos. Con este modo de puntuación, hay tantos registros de salida como de entrada.
- Haz clic en Previsualizar datos. Puede ver que cada registro contiene ahora un nuevo campo por cada categoría seleccionada en la pestaña Modelo. Para cada campo, especifique un valor de marca para true y false, como por ejemplo
True/False
o1/0
. En este flujo, los valores se establecen en1
y0
para agregar resultados y contabilizar el número de respuestas positivas, negativas, mixtas (tanto positivas como negativas) o sin puntuación (sin opinión). - Cierre la ventana Vista previa.
- Pulse Cancelar.
- Haga doble clic en el segundo nodo Modelo de satisfacción.
- Expanda la sección Configuración para ver que este nodo utiliza el modo de puntuación Categorías como registros. Se crea un nuevo registro para cada par "
category, document
". Generalmente, hay más registros en la salida que los que había en la entrada. - Haz clic en Previsualizar datos. Puede ver que, junto con los campos de entrada, también se añaden nuevos campos a los datos dependiendo del tipo de modelo que sea.
- Cierre la ventana Vista previa.
- Pulse Cancelar.
- Expanda la sección Configuración para ver que este nodo utiliza el modo de puntuación Categorías como registros. Se crea un nuevo registro para cada par "
' Comprueba tu progreso
La siguiente imagen muestra el modelo de satisfacción con una vista previa del documento. Ya está listo para visualizar los comentarios.
Tarea 6: Visualizar los comentarios
Puede obtener información rápida sobre lo que los huéspedes aprecian del hotel visualizando los comentarios. Sigue estos pasos para crear un gráfico de nube de palabras:
- Seleccione los comentarios positivos:
- En la paleta, amplíe la sección Operaciones de grabación.
- Arrastre el nodo Seleccionar al lienzo.
- Conecte el supernodo Derivar Sentimiento al nodo Seleccionar.
- Haga doble clic en el nodo Seleccionar para ver sus propiedades.
- Para el Modo, seleccione Incluir.
- Para la condición, escriba "
Sentiment = "Pos"
. - Pulse Guardar.
- Añade un gráfico:
- En la paleta, amplíe la sección Gráficos.
- Arrastre el nodo Gráficos al lienzo.
- Conecte el nodo Select al nodo Charts.
- Construye un gráfico de nubes de palabras:
- Haga doble clic en el nodo Gráficos para ver sus propiedades.
- Haga clic en Launch Chart Builder.
- Para las Columnas a visualizar, seleccione Comentarios.
- Visualice la lista de todos los tipos de gráficos y seleccione Nube de palabras.
- Cuando haya terminado, haga clic en Volver al flujo.
' Comprueba tu progreso
La siguiente imagen muestra un gráfico de nube de palabras. Ahora está listo para examinar el nodo Análisis de enlaces de texto.
Tarea 7: Examinar el nodo Análisis de enlaces de texto
- Haga doble clic en el nodo Análisis de enlaces de texto para ver sus propiedades.
- Establezca estas propiedades en la sección Campos:
- En el campo Texto, seleccione Comentarios.
- Para el campo ID, seleccione id.Nota: Sólo el campo Texto es obligatorio.
- En la sección Copiar recursos de, observe que la plantilla de recursos seleccionada es Satisfacción hotelera (inglés).
Una plantilla de recursos es un conjunto predefinido de bibliotecas y recursos lingüísticos y no lingüísticos avanzados que se han perfeccionado para un dominio o uso concretos.
- Despliegue la sección Experto y compruebe que la opción Adaptar ortografía para una longitud mínima de caracteres de palabra de está seleccionada con un Límite ortográfico de '
5
. - Pulse Guardar.
- Pase el ratón por encima del nodo de salida Raw TLA y haga clic en el icono Ejecutar ' .
- En el panel Salidas y modelos, haga clic en los resultados con el nombre Salida TLA sin procesar para ver los resultados.
' Comprueba tu progreso
La siguiente imagen muestra el flujo completado.
Resumen
Este flujo de Satisfacción Hotelera le mostró cómo un gerente de hotel podría analizar las reseñas de hoteles para ver las opiniones expresadas por los clientes sobre el personal del hotel, la comodidad, la limpieza, el precio y otras áreas de interés. Este flujo ilustra dos formas de analizar datos de texto, utilizando un nodo de Text Mining o un nodo de Text Link Analysis.
Próximos pasos
Ahora está preparado para probar otros tutorialesSPSS® Modeler.