0 / 0
Volver a la versión inglesa de la documentación
Opciones de valores
Última actualización: 21 nov 2024
Establecimiento de opciones para el entorno de trabajo de Text Analytics (SPSS Modeler)

Puede personalizar distintas partes del proceso de extracción mientras se encuentra en el entorno de trabajo de Text Analytics. En las pestañas Conceptos, Enlaces de textoy Categorías , puede acceder a varios valores del entorno de trabajo para cambiar cómo se extraen los términos de los datos de texto.

Valores para resultados de extracción

Cuando ejecuta el nodo Minería de textos, el motor de extracción lee los datos de texto, identifica los conceptos relevantes y asigna un tipo a cada uno. Puede cambiar los valores del proceso de extracción para ajustar cómo se crean los resultados de la extracción.

En la pestaña Conceptos o Enlaces de texto , pulse el icono Valores para cambiar el valor para extraer conceptos, patrones y enlaces de texto.

Activar extracción de patrón de Análisis de enlaces de texto
Si tiene reglas de análisis de enlace de texto (TLA) en una de las bibliotecas, seleccione el recuadro de selección para extraer patrones TLA de los datos de texto. Esta opción puede alargar significativamente el tiempo de extracción.
Limitar extracción a conceptos con una frecuencia global de al menos
Puede utilizar esta opción para extraer un término como concepto sólo si el término aparece un número establecido de veces en los datos de texto.
Adaptar errores de puntuación
Esta opción normaliza temporalmente el texto que tiene errores de puntuación para mejorar la extractabilidad de los conceptos durante el proceso de extracción. Esta opción es útil cuando un texto es corto y de mala calidad. Por ejemplo, los datos de texto de respuestas de encuesta abiertas, correo electrónico y datos de CRM pueden tener una puntuación incorrecta. También es útil cuando el texto contiene muchas abreviaturas.
Acomodar la ortografía a un límite mínimo de caracteres raíz
Esta opción aplica una técnica de agrupación difusa que ayuda a agrupar palabras con errores de ortografía o palabras con errores de ortografía bajo un concepto. El algoritmo de agrupación difusa elimina temporalmente todas las vocales (excepto la primera) y elimina las consonantes dobles/triples de las palabras extraídas. A continuación, compara las palabras extraídas para ver si son las mismas. Por ejemplo:modelingymodellingse agrupan. Sin embargo, si cada término se asigna a un tipo diferente, excluyendo el<Unknown>, no se aplica la técnica de agrupación difusa.
Nota: Esta técnica no funciona con datos de texto escritos en japonés. El japonés escrito se basa en el contexto para funciones gramaticales como el número y el género, por lo que las palabras suelen tener la misma forma a pesar de sus diferentes usos. Como resultado, esta técnica no funciona eficazmente.
Extraer unitérminos
Puede utilizar esta opción para extraer palabras únicas (uniterms) como conceptos cuando cumplen los criterios siguientes:
  • La palabra no forma parte de una palabra compuesta
  • La palabra es un sustantivo o una categoría léxica no reconocida
Extraer entidades no lingüísticas
Esta opción extrae entidades no lingüísticas, como las entidades siguientes:
  • Números de teléfono
  • Números de seguridad social
  • Horas
  • Fechas
  • Monedas
  • Porcentajes
  • Direcciones de correo electrónico
  • Direcciones HTTP

Puede incluir o excluir determinados tipos de entidades no lingüísticas. Al inhabilitar las entidades innecesarias, el motor de extracción ahorra tiempo de proceso.

Algoritmo de mayúsculas
Esta opción extrae términos simples y compuestos que no están en los diccionarios incorporados siempre y cuando la primera letra del término esté en mayúscula. Esta opción puede ser útil si desea extraer los nombres más adecuados.
Agrupar nombres de persona parciales y completos cuando sea posible
Esta opción agrupa nombres que aparecen de forma diferente en el texto. Esta característica resulta útil porque a menudo se hace referencia a los nombres completos al principio del texto, y más adelante se utiliza la versión abreviada. Esta opción intenta hacer coincidir cualquier unitérmino que tenga el tipo <Unknown> con la última palabra de cualquier término compuesto que se haya tipificado como <Person>. Por ejemplo, si se encuentra doe y su tipo inicial es <Unknown>, el motor de extracción comprueba si algún término compuesto del tipo <Person> incluye doe como última palabra, como en el caso de john doe. Esta opción no se aplica a los nombres propios puesto que la mayoría nunca se extraen como unitérminos.
Permutación máxima de palabras no funcionales
Esta opción especifica el número máximo de palabras no funcionales que debe haber para poder aplicar la técnica de permutación. Esta técnica de permutación agrupa frases similares que difieren entre sí solo por las palabras no funcionales (por ejemplo, of y the) contenidas, independientemente de la desinencia. Por ejemplo, supongamos que define este valor en dos palabras como máximo y se extraen los términos company officials y officials of the company. En este caso, ambos términos extraídos se agruparían juntos en la lista de conceptos final, puesto que ambos términos se consideran el mismo si se pasan por alto las palabras of the.
Utilizar derivación al agrupar multitérminos
Cuando se procesen Big Data, seleccione esta opción para agrupar multitérminos mediante reglas de derivación.

Valores para categorías

Las categorías se crean a partir de descriptores que se derivan de tipos o patrones de tipo. En la tabla, puede seleccionar los tipos individuales o patrones de tipo para incluirlos en el proceso de creación de categorías.

En la pestaña Categorías, vaya a Construir > Cambiar configuración para cambiar los siguientes ajustes.

Generar categorías a partir de
Si selecciona Tipos, las categorías se crean a partir de los conceptos que pertenecen a los tipos seleccionados. Por lo tanto, si selecciona el<Budget>tipo en la tabla, categorías comocostopricese puede producir desdecostypriceson conceptos que se asignan a la<Budget>tipo.

De forma predeterminada, solo se seleccionan los tipos que capturan la mayoría de los registros o documentos. Esta preselección le permite centrarse rápidamente en los tipos más interesantes y evitar que se generen categorías irrelevantes. La tabla muestra los tipos en orden descendente empezando por el que tiene el mayor número de registros o documentos (Doc. recuento).

La entrada que elija afectará a las categorías que obtenga. Si ha optado por utilizar Tipos como entrada, podrá ver los conceptos relacionados claramente con mayor facilidad. Por ejemplo, si genera categorías utilizando Tipos como entrada, puede obtener una categoríaFruitcon conceptos comoapple,pear,citrus fruits, yorange. Si elige Patrones de tipo como entrada en su lugar y selecciona el patrón<Unknown> + <Positive>, por ejemplo, puede obtener una categoríafruit + <Positive>con uno o dos tipos de fruta, comofruit + tastyyapple + good. Este segundo resultado sólo muestra 2 patrones de concepto porque las otras ocurrencias de fruta no están necesariamente calificadas positivamente. Aunque esto puede funcionar para los datos de texto actuales, en estudios longitudinales en los que se utilizan diferentes conjuntos de documentos, es posible que desee añadir manualmente otros descriptores como, por ejemplo,citrus fruit + positiveo utilice tipos. El uso de tipos solos como una entrada le ayuda a encontrar toda la fruta posible.

Si selecciona Patrones de tipo, las categorías se generan a partir de patrones, no de tipos y conceptos. Los registros o documentos que contienen un patrón de concepto que pertenecen al patrón de tipo seleccionado se categorizan. Por lo tanto, si selecciona el<Budget>y<Positive>patrón de tipo en la tabla, categorías comocost & <Positive>orates & excellentpuede producirse.

Cuando se utilizan patrones de tipo como entrada para la creación automática de categorías, a veces las técnicas identifican varias formas de formar la estructura de categorías. Técnicamente, no hay una única manera correcta de producir las categorías; sin embargo, puede que una estructura resulte más adecuada para su análisis que otra. Para ayudar a personalizar el resultado en este caso, puede designar un tipo como el foco preferido. Todas las categorías de nivel superior producidas provendrán de un concepto del tipo que seleccione aquí (y de ningún otro tipo). Cada subcategoría contendrá un patrón de enlace de texto de este tipo. Seleccione este tipo en el campo Estructurar categorías por tipo de patrón: y la tabla se actualizará para mostrar solo los patrones aplicables que contengan el tipo seleccionado. Más a menudo que no,<Unknown>está preseleccionado para usted. Cuando<Unknown>está seleccionado, da como resultado que todos los patrones contengan el tipo<Unknown>. La tabla muestra los tipos en orden descendente, empezando por el que tiene el mayor número de registros o documentos (Doc. recuento).

Técnicas
Puesto que cada conjunto de datos es exclusivo, el número de métodos y el orden en el que los aplica pueden cambiar con el tiempo. Sus objetivos para la minería de texto pueden ser diferentes de un conjunto de datos al siguiente, por lo que es posible que tenga que experimentar con diferentes técnicas para ver cuál produce los mejores resultados con los datos de texto.

No es necesario que sea un experto en este tipo de configuración para poder utilizarlas. De forma predeterminada, los valores más comunes ya aparecen seleccionados. Por lo tanto, puede pasar por alto los diálogos de configuración avanzada y empezar a generar categorías directamente. Igualmente, si realiza cambios aquí, no es necesario que vuelva al diálogo de configuración cada vez, puesto que siempre se conservan los últimos valores.

Seleccione una de las siguientes técnicas y luego pulse Valores avanzados. Ninguna de las técnicas automáticas puede categorizar perfectamente sus datos. Es posible que tenga que buscar y aplicar una o más técnicas automáticas que funcionen bien con los datos. No se puede construir utilizando técnicas lingüísticas y de frecuencia simultáneamente.

Dispone de los siguientes valores para la opción Ampliar:

Entrada de categorías
Seleccione Resultados de extracción no utilizados si desea que las categorías se construyan a partir de resultados de extracción que no se utilizan en ninguna categoría existente. Esta opción minimiza la tendencia de los registros a coincidir con varias categorías y limita el número de categorías producidas. O seleccione Todos los resultados de extracción si desea que las categorías se construyan utilizando cualquiera de los resultados de extracción. Esta opción es más útil cuando ya no tiene o tiene pocas categorías.

Cada una de las técnicas de agrupación se ajusta mejor a determinados tipos de datos y situaciones. A menudo resulta útil combinar técnicas en el mismo análisis para capturar toda la gama de documentos o registros. Es posible que vea un concepto en varias categorías o que encuentre categorías redundantes.

La técnica de inclusión de conceptos genera categorías mediante la agrupación de conceptos de varios términos (palabras compuestas) en función de si contienen palabras que son subconjuntos o superconjuntos de una palabra en la otra. Por ejemplo, el asiento conceptual se agrupa con el asiento de seguridad, el cinturón de seguridad y la hebilla del cinturón de seguridad.

La técnica de red semántica comienza identificando los posibles significados de cada concepto a partir de un amplio índice de relaciones entre palabras, y luego crea categorías agrupando los conceptos relacionados. Por ejemplo, los conceptos buceo, navegación, snorkeling, kayaky kayak de agua blanca pueden estar todos agrupados en la categoría sports/sports by type/water sports. O bien, el concepto animal se puede agrupar con cat y canguro puesto que son hiponyms de animal. La técnica de red semántica funciona mejor cuando los conceptos son conocidos por la red semántica y no son demasiado ambiguos. Es menos útil cuando el texto contiene terminología especializada o jerga desconocida para la red. Esta técnica solo está disponible para el texto en inglés.

La opción Distancia máxima de búsqueda solo disponible si selecciona la técnica de red semántica. Seleccione hasta qué punto desea que las técnicas busquen antes de generar categorías. Cuanto menor sea el valor, menos resultados puede obtener. Sin embargo, estos resultados son menos ruidosos y son más propensos a estar significativamente vinculados o asociados entre sí. Cuanto más alto sea el valor, más resultados puede obtener. Sin embargo, estos resultados pueden ser menos fiables o relevantes. Esta opción se aplica globalmente en todas las técnicas, pero sus resultados son mejores en las coocurrencias y en las redes semánticas.

Seleccione Evitar el emparejamiento de conceptos específicos para detener el proceso de agrupación o emparejamiento de dos conceptos juntos en la salida. Para crear o gestionar pares de conceptos, pulse Gestionar pares.

Cuando sea posible
Elija si desea ampliar o generalizar los descriptores utilizando comodines, o ambos.
Ampliar y generalizar
Esta opción amplía las categorías seleccionadas y, a continuación, generaliza los descriptores. Cuando elige generalizar, el proceso de creación de categorías crea reglas de categoría genéricas que utilizan el comodín de asterisco. Por ejemplo, en lugar de varios descriptores como [apple tart + .] y [apple sauce + .], una regla de categoría genérica puede utilizar comodines para generar [apple * + .]. Si generaliza con comodines, a menudo obtiene el mismo número de registros o documentos que antes. Sin embargo, esta opción tiene la ventaja de reducir el número y de simplificar los descriptores de categoría. Además, esta opción aumenta la capacidad de categorizar más registros o documentos utilizando estas categorías en nuevos datos de texto (por ejemplo, en estudios longitudinales o de onda).
Sólo ampliar
Esta opción amplía las categorías sin generalizar. Puede resultar útil seleccionar primero la opción Solo ampliar para las categorías creadas manualmente y, a continuación, ampliar las mismas categorías de nuevo mediante la opción Ampliar y generalizar.
Generalizar sólo
Esta opción generaliza los descriptores sin ampliar las categorías de ninguna otra forma.
Número máximo de elementos con los que ampliar un descriptor
Cuando amplíe un descriptor con elementos (conceptos, tipos y otras expresiones), defina el número máximo de elementos que se pueden añadir a un único descriptor. Si establece este límite en 10, no se pueden añadir más de 10 elementos adicionales a un descriptor existente. Si hay más de 10 elementos para añadir, las técnicas dejan de añadir elementos nuevos cuando se alcanza el décimo. Con ello se puede reducir la lista de un descriptor, pero no se garantiza que se utilicen en primer lugar los elementos más interesantes.
Ampliar también subcategorías
Esta opción amplía las subcategorías incluidas en las categorías seleccionadas.
Ampliar categorías vacías con descriptores generados a partir del nombre de categoría
Este método solo se aplica a categorías vacías, que tienen 0 descriptores. Si una categoría ya contiene descriptores, no se amplía de esta forma. Esta opción intenta generar descriptores automáticamente para cada categoría basándose en las palabras que forman el nombre de la categoría. El nombre de categoría se explora para ver si las palabras del nombre coinciden con los conceptos extraídos. Si se reconoce un concepto, se utiliza para buscar patrones de concepto coincidentes y ambos se utilizan para formar descriptores para la categoría. Esta opción genera los mejores resultados cuando los nombres de categoría son largos y descriptivos. Es un método rápido para generar descriptores de categoría, que a su vez permiten a la categoría capturar registros que contienen dichos descriptores. Esta opción resulta muy útil cuando se importan categorías desde otro punto o cuando se crean categorías manualmente con nombres descriptivos largos.
Generar descriptores como
Esta opción sólo se aplica si se selecciona la opción anterior. Elija la opción Conceptos para generar los descriptores resultantes en forma de conceptos, independientemente de si se han extraído del texto de origen. O bien elija la opción Patrones para producir los descriptores resultantes en forma de patrones, independientemente de si se han extraído los patrones resultantes o cualquier patrón.
Búsqueda y respuesta de IA generativa
Estas respuestas las genera un modelo de lenguaje grande en watsonx.ai que se basa en el contenido de la documentación del producto. Más información