Cuando cree categorías, puede seleccionar entre varias técnicas de creación de categorías lingüísticas avanzadas, como por ejemplo inclusión de conceptos y redes semánticas (solo texto en inglés). Estas técnicas se pueden utilizar individualmente o combinadas entre sí para crear categorías.
Tenga en cuenta que, puesto que cada conjunto de datos es exclusivo, el número de métodos y el orden en el que los aplique puede cambiar con el tiempo. Puesto que los objetivos de la minería de textos pueden diferir de un conjunto de datos a otro, es posible que tenga que experimentar con diferentes técnicas para comprobar con cuál de ellas se obtiene el mejor resultado para determinados datos de texto. Ninguna de las técnicas automáticas asignará perfectamente sus datos a categorías; por lo tanto, recomendamos que localice y aplique una o varias técnicas automáticas que funcionen correctamente con sus datos.
Están disponibles los siguientes valores avanzados para la opción Utilizar técnicas lingüísticas para generar categorías en los valores de categoría.
Entrada de categorías
Seleccione a partir de dónde se van a generar las categorías:
- Resultados de extracción no usados. Esta opción habilita la generación de categorías a partir de resultados de extracción que no se utilizan en ninguna categoría existente. De esta manera se minimiza la tendencia que tienen los registros de hacer coincidir varias categorías y limita el número de categorías que se generan.
- Todos los resultados de la extracción. Esta opción permite generar categorías utilizando cualquiera de los resultados de la extracción. Esto resulta especialmente útil cuando no existen categorías o cuando existen pocas.
Salida de categorías
Seleccione la estructura general de las categorías que se generarán:
- Jerárquica con subcategorías. Esta opción crea subcategorías y sub-subcategorías. Para definir la profundidad de las categorías, seleccione el número máximo de niveles que se pueden crear. Por ejemplo, si selecciona 3, las categorías podrían contener subcategorías y dichas subcategorías también podrían tener subcategorías.
- Categorías planas (un solo nivel). Esta opción solo genera un nivel de categorías, lo que significa que no se genera ninguna subcategoría.
Técnicas de agrupación
Cada una de las técnicas disponibles resulta más adecuada para ciertos tipos de datos y situaciones, pero a menudo resulta útil combinar técnicas en el mismo análisis para capturar toda la gama de documentos o registros. Puede ver un concepto en diversas categorías o detectar categorías redundantes.
- Agrupar por inclusión de conceptos. Esta técnica genera categorías agrupando los conceptos multitérmino (palabras compuestas) en función de si contienen palabras que son subconjuntos o superconjuntos de una palabra en la otra. Por ejemplo, el concepto
seat
se agruparía consafety seat
,seat belt
yseat belt buckle
. - Agrupar por red semántica. Esta técnica comienza identificando los posibles sentidos de cada concepto a partir de un amplio índice de relaciones de palabras, y luego crea categorías agrupando los conceptos relacionados. Esta técnica resulta idónea cuando los conceptos son conocidos en la red semántica y no son muy ambiguos. Resulta menos adecuada si el texto contiene terminología específica o jerga desconocida para la red. En un ejemplo, el concepto
granny smith apple
se podría agrupar congala apple
ywinesap apple
ya que son hermanos de Granny Smith. En otro ejemplo, el conceptoanimal
podría agruparse concat
ykangaroo
ya que son hipónimos deanimal
. Esta técnica solo está disponible para el texto en inglés. - Distancia máxima de búsqueda. Este valor solo está disponible si selecciona la opción Agrupar por red semántica. Seleccione el alcance de búsqueda de las técnicas antes de generar las categorías. Cuanto más bajo sea el valor, menor será la cantidad de resultados obtenidos; sin embargo, estos datos tendrán menos ruido y es más probable que estén enlazados o asociados entre sí. Cuando más alto sea el valor, mayor será la cantidad de resultados obtenidos; sin embargo, estos resultados pueden ser menos fiables o relevantes. Esta opción se aplica globalmente en todas las técnicas, pero sus resultados son mejores en las coocurrencias y en las redes semánticas.
- Evitar el emparejamiento de conceptos específicos. Seleccione esta opción para detener el proceso de agrupación o emparejamiento de dos conceptos juntos en la salida. Para crear o gestionar pares de conceptos, pulse Gestionar pares.
- Generalizar con comodines cuando sea posible. Seleccione esta opción para permitir que Modeler genere reglas genéricas en categorías utilizando el carácter comodín de asterisco. Por ejemplo, en lugar de generar varios descriptores como
[apple tart + .]
y[apple sauce + .]
, utilizar comodines puede generar[apple * + .]
. Si generaliza con caracteres comodín, a menudo obtendrá exactamente el mismo número de registros o documentos que antes. Sin embargo, esta opción tiene la ventaja de reducir el número y de simplificar los descriptores de categoría. Además, esta opción aumenta la capacidad de asignar a categorías más registros o documentos utilizando estas categorías en los nuevos datos de texto (por ejemplo, en estudios longitudinales/de ciclos).
Otras opciones para la generación de categorías
Número máximo de categorías de nivel superior creadas. Utilice esta opción para limitar el número de categorías que se pueden generar la próxima vez que pulse Generar en el panel de categorías. En algunos casos, puede obtener mejores resultados si establece un valor alto y luego suprime algunas de las categorías irrelevantes.
Número mínimo de descriptores y/o subcategorías por descriptor. Utilice esta opción para definir el número mínimo de descriptores y subcategorías que debe contener una categoría para que se pueda crear. Esta opción ayuda a limitar la creación de categorías que no capturan un número significativo de registros o documentos.
Permitir que los descriptores aparezcan en más de una categoría. Cuando está seleccionada, esta opción permite utilizar descriptores en más de una de las categorías que se generarán a continuación. Esta opción se suele seleccionar ya que los elementos normalmente (o "naturalmente") caen dentro de dos o más categorías, y permitir que así sea suele dar lugar a categorías de mayor calidad. Si no selecciona esta opción, puede reducir el solapamiento de registros en varias categorías y, en función del tipo de datos que tenga, esto podría ser lo deseable. Sin embargo, en el caso de la mayoría de los tipos de datos, el hecho de restringir los descriptores a una sola categoría suele dar lugar a una pérdida de calidad o de cobertura de la categoría. Por ejemplo, supongamos que tiene el concepto car seat manufacturer
. Con esta opción, este concepto podría aparecer en una categoría basada en el texto car seat
y en otra basada en manufacturer
. Pero si esta opción no está seleccionada, aunque todavía puede obtener ambas categorías, el concepto car seat manufacturer
solo aparecerá como un descriptor en la categoría que mejor coincide en función de varios factores, incluido el número de registros en los que car seat
y manufacturer
aparecen por separado.
Resolver los nombres de categoría duplicados. Seleccione cómo se deben manejar las categorías o subcategorías nuevas cuyos nombres sean iguales que los de categorías existentes. Puede fusionar las nuevas (y sus descriptores) con las categorías existentes con el mismo nombre, o bien puede optar por omitir la creación de categorías si se encuentra un nombre duplicado en las categorías existentes.