0 / 0
Volver a la versión inglesa de la documentación
Analizar el texto para conocer la satisfacción del hotel
Última actualización: 11 dic 2024
Analizar el texto para conocer la satisfacción del hotel

Este tutorial le ayuda a analizar texto utilizando nodos especializados en el manejo de texto. Por ejemplo, puede realizar análisis de sentimiento.

En este tutorial, el director de un hotel quiere analizar las reseñas del hotel para ver qué opinan los clientes. Los comentarios expresan opiniones sobre el personal del hotel, comodidad, limpieza, precio, y otras áreas de interés.

Figura 1. Gráfico de opiniones positivas
Gráfico de opiniones positivas. Muestra términos y frases como, por ejemplo, la ubicación, el presupuesto y las comodidades del hotel. Estos términos varían en función de su importancia. Ellos organizaron el término central más importante que está en el centro y es el más grande.
Figura 2. Gráfico de opiniones negativas
Gráfico de opiniones negativas. Muestra términos y frases como, por ejemplo, la ubicación, el presupuesto y las comodidades del hotel. Estos términos varían en función de su importancia. Ellos organizaron el término central más importante que está en el centro y es el más grande.

Pruebe el tutorial

En esta guía de aprendizaje, realizará estas tareas:

Ejemplo de flujo de modelización y conjunto de datos

Este tutorial utiliza el flujo Hotel Satisfaction en el proyecto de ejemplo. El flujo utiliza nodos de Text Analytics para analizar revisiones ficticias sobre el hotel. El archivo de datos utilizado es hotelSatisfaction.csv. La siguiente imagen muestra el flujo del modelador de muestra.

Flujo completado
La siguiente imagen muestra el conjunto de datos de muestra.
Muestra de datos

Tarea 1: Abrir el proyecto de ejemplo

El proyecto de muestra contiene varios conjuntos de datos y flujos de modelado de muestra. Si aún no tiene el proyecto de ejemplo, consulte el tema Tutoriales para crear el proyecto de ejemplo. A continuación, siga estos pasos para abrir el proyecto de ejemplo:

  1. En Cloud Pak for Data, en el menú de navegación ' Menú de navegación, seleccione Proyectos > Ver todos los proyectos.
  2. Haga clic en ProyectoSPSS Modeler.
  3. Haga clic en la pestaña Activos para ver los conjuntos de datos y los flujos del modelador.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra la pestaña Activos del proyecto. Ya está preparado para trabajar con el flujo del modelador de ejemplo asociado a este tutorial.

texto alt

volver a la parte superior

Tarea 2: Examinar el nodo Activos de datos

Satisfacción hotelera incluye varios nodos. Siga estos pasos para examinar el nodo Activo de datos:

  1. En la pestaña Activos, abra el flujo del modelador Satisfacción hotelera y espere a que se cargue el lienzo.
  2. Haga doble clic en el nodo hotelSatisfaction.csv. Este nodo es un nodo de Activo de Datos que apunta al archivo hotelSatisfaction.csv en el proyecto.
  3. Revise las propiedades del formato de archivo.
  4. Opcional: Haga clic en Vista previa de datos para ver el conjunto de datos completo.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el nodo de Activos de Datos. Ahora está listo para examinar el nodo Text Mining.

Nodo Filtrar

volver a la parte superior

Tarea 3: Examinar el nodo Text Mining

La minería de textos es un proceso iterativo que identifica conceptos y patrones relevantes en los datos textuales. Cuando se ejecuta el nodo Text Mining, el motor de extracción lee los datos de texto, identifica los conceptos relevantes y asigna un tipo a cada uno. A continuación, puede revisar los resultados de la extracción utilizando Text Analytics Workbench para ajustar el proceso de extracción. Puede volver a ejecutar el nodo Text Mining para obtener nuevos resultados y, a continuación, evaluarlos. Observe el nodo Tipo situado entre el nodo Activos de datos y el nodo Minería de texto. El nodo Tipo es necesario para identificar correctamente los campos del conjunto de datos. Siga estos pasos para examinar el nodo Text mining:

  1. Haga doble clic en el nodo Comentarios (Text Mining) para ver sus propiedades.
  2. Establezca estas propiedades en la sección Campos:
    1. En el campo Texto, seleccione Comentarios.
    2. Para el campo ID, seleccione id.
      Nota: Sólo el campo Texto es obligatorio.
      Figura 3. Propiedades del nodo Minería de textos
      Propiedades de construcción del nodo Text Mining. Muestra algunas configuraciones de campo en la ventana como el campo Texto y el campo ID.
  3. En la sección Modelo, observe que el paquete de análisis de texto seleccionado es Satisfacción hotelera (inglés)/Tema + Opinión.

    Un paquete de análisis de texto (PAT) es un conjunto predefinido de bibliotecas y recursos lingüísticos y no lingüísticos avanzados, que se agrupan con uno o varios conjuntos de categorías predefinidas. Si ningún paquete de análisis de texto es relevante para su aplicación, puede seleccionar en su lugar una plantilla de Recursos. Una plantilla de recursos es un conjunto predefinido de bibliotecas y recursos lingüísticos y no lingüísticos avanzados que se han perfeccionado para un dominio o uso concretos.

  4. En la sección Construir modelos, establezca estas propiedades:
    1. Compruebe que el campo Modos de construcción está establecido en Construir interactivamente (categoría modelo nugget). Posteriormente, al ejecutar el nodo, esta opción inicia Text Analytics Workbench, que es una interfaz interactiva en la que puede explorar y ajustar los resultados de la extracción.
    2. Compruebe que el campo Iniciar sesión por está configurado como Extraer conceptos y enlaces de texto. La opción Extracción de conceptos extrae sólo conceptos, mientras que la extracción TLA produce tanto conceptos como enlaces de texto que son conexiones entre temas (como servicio, personal y comida) y opiniones.
  5. Despliegue la sección Experto y compruebe que la opción Adaptar ortografía para una longitud mínima de caracteres de palabra de está seleccionada con un Límite ortográfico de ' 5. Esta opción aplica una técnica de agrupación difusa que ayuda a agrupar bajo un concepto las palabras que suelen contener algún error ortográfico o que tienen una ortografía parecida. El algoritmo de agrupación difusa elimina temporalmente las consonantes dobles o triples y todas las vocales (excepto la primera) de las palabras extraídas. Luego los compara para ver si son iguales. Por ejemplo, " location y " locattoin están agrupados.

    Figura 4. Propiedades de los nodos expertos en minería de textos.
    Propiedades de los nodos expertos en minería de textos. Muestra la configuración de las propiedades del nodo Text Mining. Algunos de los principales grupos de ajustes son Ajustes, Construir modelos y Experto. En la agrupación Experto hay casillas de verificación para ajustes como Acomodar ortografía para un límite mínimo de caracteres raíz, Extraer unitermos, Extraer entidades no lingüísticas, Algoritmo de mayúsculas, Agrupar nombres de persona parciales y completos cuando sea posible y Utilizar derivación al agrupar sustantivos compuestos.
  6. Pulse Guardar.
  7. Pase el ratón por encima del nodo Comentarios (Text Mining) y haga clic en el icono Ejecutar ' Icono de ejecución.
  8. En el panel Resultados y modelos, haga clic en los resultados con el nombre Comentarios para abrir el Text Analytics Workbench.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el Text Analytics Workbench. Ya está listo para afinar los resultados.

Text Analytics Workbench

volver a la parte superior

Tarea 4: Ajuste de los resultados en Text Analytics Workbench

El Text Analytics Workbench contiene los resultados de la extracción y el modelo de categorías que contiene el paquete de análisis de texto. Se trata de un banco de trabajo interactivo en el que puede explorar y ajustar los resultados extraídos, crear y refinar categorías y construir nuggets de modelos de categorías. Siga estos pasos para ajustar los resultados en Text Analytics Workbench:

conceptos

  1. Haga clic en la pestaña Conceptos.

    Durante el proceso de extracción, los datos de texto se analizan para identificar palabras sueltas interesantes o relevantes, como " airport o " location, y frases de palabras, como " airport pick-up. Estas palabras y frases se conocen colectivamente con el nombre de términos. A partir de los recursos lingüísticos, se extraen los términos pertinentes y los términos similares se agrupan en un término principal que se denomina concepto.

    De este modo, un concepto puede representar varios términos subyacentes. Depende de cómo se utilice el término en el texto y del conjunto de recursos lingüísticos que utilices.

  2. Haga clic en el icono Filtro " Icono de filtro
  3. También puede utilizar un filtro para seleccionar un subconjunto de conceptos. La siguiente imagen muestra las diferentes opciones:

    Figura 5. Text Analytics Workbench - opciones de filtro
    Text Analytics Workbench - opciones de filtro

    Si desea eliminar los filtros y mostrar todos los conceptos, haga clic en Borrar filtro.

    Haga clic en Cancelar para cerrar el panel Filtro.

Enlaces de texto

  1. Haz clic en la pestaña Enlaces de texto.

    El análisis de vínculos textuales (TLA) es una tecnología de concordancia de patrones que compara las reglas del TLA con los conceptos y relaciones extraídos que se encuentran en el texto. En la pestaña Enlaces de texto, puede construir y explorar los patrones TLA que se encuentran en sus datos de texto.

  2. Seleccione un Patrón de Tipo (por ejemplo, <Servicios> + <Positivo> para ver una vista previa del texto en el documento. Si el texto de la vista previa del documento está truncado, haga clic en el icono Ver documento completo ' Icono para ver todo el documento para mostrar el texto completo.
    Text Analytics Workbench - pestaña Enlaces de texto. Muestra los patrones de tipo en la pestaña Enlace de texto. A un lado está el panel Vista previa, que tiene una tabla con tres columnas. Las tres columnas son Entrada, Vista previa del documento y Ruta de categoría.

Categorías

  1. Haga clic en la pestaña Categorías.

    Puede crear y gestionar sus categorías. Una vez extraídos los conceptos y tipos de sus datos de texto, puede empezar a construir categorías automáticamente mediante técnicas como la inclusión de conceptos, la red semántica (sólo en inglés) o manualmente.

    Dado que este flujo de ejemplo utiliza una plantilla de paquete de análisis de texto, el modelo de categorías ya está rellenado.

  2. Haga clic en Puntuar todo para puntuar los documentos o registros. Cada vez que se crea o actualiza una categoría, puede ver si algún texto coincide con un descriptor de una categoría específica. Si se encuentra una coincidencia, el documento o registro se asigna a esa categoría. El resultado es que la mayoría de los documentos o registros, si no todos, se asignan a categorías basadas en los descriptores de las categorías.
  3. Amplíe una categoría, por ejemplo, Servicios del hotel > Limpieza > Neg > sin limpiar.
  4. Visualice los documentos en la pestaña Vista previa y en la pestaña Descriptores para ver los datos de origen.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra la vista previa del documento de la categoría Limpieza. Ya está listo para construir el modelo.

Nodo Rellenar

volver a la parte superior

Tarea 5: Construir el modelo

Una vez que termine de ajustar el proceso de extracción, podrá generar un modelo de categorías a partir de las personalizaciones y las categorías que haya creado. Siga estos pasos para construir y desplegar el modelo:

  1. Haga clic en Generar un modelo para generar un modelo de categoría.
    Imagen que muestra el botón para Generar un modelo
  2. Haga clic en Construir para confirmar que desea generar un modelo de categoría.
  3. ¡Cuando veas el Éxito! haga clic en Volver al flujo.
  4. Haga clic en Guardar y salir para guardar los cambios y el nodo Text Mining en el flujo.
    El modelo de categoría generado se muestra en el lienzo de flujo.
    Figura 6. Modelo de categoría generado
    Nugget de modelo de categoría generado. Muestra un flujo con un nodo de Text Mining y un nugget de modelo de categoría.
  5. Observe los dos nodos del modelo de satisfacción en el flujo de ejemplo. Ahora que Text Analytics Workbench ha validado y generado un modelo de categorías, puede desplegarlo en su flujo y puntuar el mismo conjunto de datos o puntuar datos nuevos. Cada modelo utiliza un modo de puntuación diferente.
    Figura 7. Flujo de ejemplo con dos modos de puntuación
    Flujo de ejemplo con dos modos de puntuación
  6. Haga doble clic en el primer nodo Modelo de satisfacción.
    1. Expanda la sección Configuración para ver que este nodo utiliza el modo de puntuación Categorías como campos. Con este modo de puntuación, hay tantos registros de salida como de entrada.
    2. Haz clic en Previsualizar datos. Puede ver que cada registro contiene ahora un nuevo campo por cada categoría seleccionada en la pestaña Modelo. Para cada campo, especifique un valor de marca para true y false, como por ejemplo True/False o 1/0. En este flujo, los valores se establecen en 1 y 0 para agregar resultados y contabilizar el número de respuestas positivas, negativas, mixtas (tanto positivas como negativas) o sin puntuación (sin opinión).

      Figura 8. Resultados del modelo - categorías como campos (1).
      Resultados del modelo - categorías como campos. Se trata de una tabla con las columnas ID, Comentarios, Sexo, Motivo, Neg, Pos, Cont y Sentimiento. Las entradas de la columna ID son números. Las entradas de la columna Comentarios muestran frases cortas extraídas del texto. Por ejemplo, una entrada dice muy tranquilo, pero muy caro. Las entradas de la columna Motivo muestran si el viaje fue por negocios o por ocio. Neg y Pos muestran un recuento de sentimientos negativos y positivos para cada frase corta. El sentimiento muestra si la opinión fue positiva (sólo números en la columna Pos), negativa (sólo números en la columna Neg) o mixta (números en las columnas Neg y Pos).
    3. Cierre la ventana Vista previa.
    4. Pulse Cancelar.
  7. Haga doble clic en el segundo nodo Modelo de satisfacción.
    1. Expanda la sección Configuración para ver que este nodo utiliza el modo de puntuación Categorías como registros. Se crea un nuevo registro para cada par " category, document ". Generalmente, hay más registros en la salida que los que había en la entrada.
    2. Haz clic en Previsualizar datos. Puede ver que, junto con los campos de entrada, también se añaden nuevos campos a los datos dependiendo del tipo de modelo que sea.

      Figura 9. Resultados del modelo - categorías como registros (2).
      Resultados del modelo: categorías como registros. Se trata de una tabla con las columnas ID, Comentarios, Sexo, Motivo, Categoría y Sentimiento. Las entradas de la columna ID son números. Las entradas de la columna Comentarios muestran frases cortas extraídas del texto. Por ejemplo, una entrada dice muy tranquilo, pero muy caro. Las entradas de la columna Motivo muestran si el viaje fue por negocios o por ocio. Neg y Pos muestran un recuento de sentimientos negativos y positivos para cada frase corta. El sentimiento muestra si la opinión fue positiva (sólo números en la columna Pos), negativa (sólo números en la columna Neg) o mixta (números en las columnas Neg y Pos).
    3. Cierre la ventana Vista previa.
    4. Pulse Cancelar.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el modelo de satisfacción con una vista previa del documento. Ya está listo para visualizar los comentarios.

Nodo de modelo

volver a la parte superior

Tarea 6: Visualizar los comentarios

Puede obtener información rápida sobre lo que los huéspedes aprecian del hotel visualizando los comentarios. Sigue estos pasos para crear un gráfico de nube de palabras:

  1. Seleccione los comentarios positivos:
    1. En la paleta, amplíe la sección Operaciones de grabación.
    2. Arrastre el nodo Seleccionar al lienzo.
    3. Conecte el supernodo Derivar Sentimiento al nodo Seleccionar.
    4. Haga doble clic en el nodo Seleccionar para ver sus propiedades.
    5. Para el Modo, seleccione Incluir.
    6. Para la condición, escriba " Sentiment = "Pos".
    7. Pulse Guardar.
  2. Añade un gráfico:
    1. En la paleta, amplíe la sección Gráficos.
    2. Arrastre el nodo Gráficos al lienzo.
    3. Conecte el nodo Select al nodo Charts.
  3. Construye un gráfico de nubes de palabras:
    1. Haga doble clic en el nodo Gráficos para ver sus propiedades.
    2. Haga clic en Launch Chart Builder.
    3. Para las Columnas a visualizar, seleccione Comentarios.
    4. Visualice la lista de todos los tipos de gráficos y seleccione Nube de palabras.

      Figura 10. Todos los tipos de gráficos
      Todos los tipos de gráficos
  4. Cuando haya terminado, haga clic en Volver al flujo.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra un gráfico de nube de palabras. Ahora está listo para examinar el nodo Análisis de enlaces de texto.

Nube de palabras

volver a la parte superior

Tarea 7: Examinar el nodo Análisis de enlaces de texto

A veces, puede que no necesite crear un modelo de categoría para puntuar. El nodo Text Link Analysis añade una tecnología de concordancia de patrones a la extracción de conceptos de la minería de textos. El nodo Text Link Analysis identifica las relaciones entre los conceptos de los datos textuales basándose en patrones conocidos. Estas relaciones pueden describir la sensación de un cliente respecto a un producto, las empresas que están haciendo negocios juntas o hasta las relaciones entre genes o agentes farmacéuticos. Siga estos pasos para examinar el nodo Análisis de enlaces de texto:
Nodo Análisis de enlaces de texto
  1. Haga doble clic en el nodo Análisis de enlaces de texto para ver sus propiedades.
  2. Establezca estas propiedades en la sección Campos:
    1. En el campo Texto, seleccione Comentarios.
    2. Para el campo ID, seleccione id.
      Nota: Sólo el campo Texto es obligatorio.

      Figura 11. Propiedades FIELD del nodo Análisis de enlaces de texto.
      Propiedades FIELD del nodo Análisis de enlaces de texto. Muestra la configuración de campos como el campo ID, el campo Texto, el campo Idioma, el Tipo de documento, la Unidad textual y la configuración del modo Párrafo.
  3. En la sección Copiar recursos de, observe que la plantilla de recursos seleccionada es Satisfacción hotelera (inglés).

    Una plantilla de recursos es un conjunto predefinido de bibliotecas y recursos lingüísticos y no lingüísticos avanzados que se han perfeccionado para un dominio o uso concretos.

  4. Despliegue la sección Experto y compruebe que la opción Adaptar ortografía para una longitud mínima de caracteres de palabra de está seleccionada con un Límite ortográfico de ' 5.

    Figura 12. Propiedades del nodo Experto en análisis de enlaces de texto.
    Propiedades del nodo Experto en análisis de enlaces de texto. Muestra casillas de verificación para ajustes como Acomodar ortografía para un límite mínimo de caracteres raíz, Extraer unitermos, Extraer entidades no lingüísticas, Algoritmo de mayúsculas, Agrupar nombres de persona parciales y completos cuando sea posible y Utilizar derivación al agrupar sustantivos compuestos.
  5. Pulse Guardar.
  6. Pase el ratón por encima del nodo de salida Raw TLA y haga clic en el icono Ejecutar ' Icono de ejecución.
  7. En el panel Salidas y modelos, haga clic en los resultados con el nombre Salida TLA sin procesar para ver los resultados.

    Figura 13. Salida TLA bruta.
    Salida TLA bruta. Es una tabla con columnas como Concept1, Type1, Concept2, Type2, ID y Texto coincidente. Las entradas de las columnas de conceptos son palabras como habitación o aparcamiento. Las entradas para las columnas de tipo son palabras como Presupuesto o Servicios. Las filas muestran cómo se relaciona un concepto con un tipo o con otros conceptos. Cada fila muestra también cómo aparecen estas palabras en el texto.

    Figura 14. Recuento de sentimientos en un nodo TLA.
    Recuento de sentimientos en un nodo TLA. Es una tabla con las columnas ID, Comentarios, Pos_Count_Sum y Neg_Count_Sum. Las entradas de la columna ID son números para cada fila. Las entradas de la columna Comentarios muestran frases cortas extraídas del texto. Por ejemplo, una entrada dice Habitaciones confortables, desayuno excepcional y servicio agradable. Las entradas de las columnas Pos_Count_Sum y Neg_Count_Sum muestran números que cuentan el número de sentimientos positivos o negativos de cada frase corta. Por ejemplo, para la frase anterior, contó tres sentimientos positivos.

Icono de punto de control ' Comprueba tu progreso

La siguiente imagen muestra el flujo completado.

Flujo completado

volver a la parte superior

Resumen

Este flujo de Satisfacción Hotelera le mostró cómo un gerente de hotel podría analizar las reseñas de hoteles para ver las opiniones expresadas por los clientes sobre el personal del hotel, la comodidad, la limpieza, el precio y otras áreas de interés. Este flujo ilustra dos formas de analizar datos de texto, utilizando un nodo de Text Mining o un nodo de Text Link Analysis.

Próximos pasos

Ahora está preparado para probar otros tutorialesSPSS® Modeler.

Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información