Concepto de tesauro

Tema5. Expansión de la consulta con términos extraídos de un tesauro:
Un elemento auxiliar en el proceso de expansión de la consulta es el tesauro. Éste es una herramienta documental, perteneciente a un área específica del conocimiento, que registra distintos tipos de relaciones entre términos. Tal herramienta contribuye a la reformulación de la consulta a partir de asesorar sobre nuevas formas de explicitar la consulta. En un sistema de recuperación de información que incorpore expansión de consultas por tesauro un usuario, ante una consulta donde se han obtenido resultados pobres, puede indicarle al sistema que incorpore términos que tengan una alta asociación con los expresados en la consulta original. Tal incorporación se realiza de forma automática o manual, luego se envía la nueva consulta al sistema de recuperación de información a efectos de obtener nuevos documentos.

Concepto de tesauro: Desde el punto de vista de su estructura, el tesauro es un vocabulario controlado y dinámico de términos que tienen entre sí relaciones semánticas y genéricas, y que se aplican a un campo particular del conocimiento. Desde el punto de vista funcional, un tesauro es un instrumento de control de la terminología utilizado para trasladar a un lenguaje menos ambiguo (lenguaje documental o lenguaje de indización) el lenguaje natural utilizado en los documentos.

Estructura de un tesauro: Un tesauro proporciona varios tipos de datos a los usuarios: *Descriptores: Términos aceptados o permitidos, es decir,  cuál es la designación aceptada en este vocabulario para representar cada uno de los conceptos recogidos en el mismo. *No Descriptores: Términos no aceptados o no permitidos. El tesauro también debe indicar algunos términos no descriptores que resultan de gran utilidad para los indizadores y para los usuarios. –>


–> Estos términos se llaman no descriptores. A partir de un no descriptor debe ser posible llegar al término descriptor, que es el que habrá de utilizarse para la indización y para la recuperación. *Relaciones Semánticas. Así como relaciona términos válidos con términos no válidos, un tesauro también muestra conexiones entre diversos descriptores. Estas conexiones se establecen generalmente mediante relaciones semánticas.

Otras maneras que tiene el tesauro para orientar acerca de su uso son las notas introductorias, también denominadas notas de alcance. Una nota de alcance toma a menudo la forma de una pequeña explicación del sentido en el que se utiliza el término, o bien una pequeña definición del término. Como todos los lenguajes documentales, los tesauros son herramientas para el control del vocabulario. Orientan a los indizadores y a los usuarios sobre los términos que pueden utilizar y, así, ayudan a mejorar la calidad de la recuperación. Aunque existe algún tesauro general, de carácter enciclopédico, habitualmente un tesauro se diseña para la indización y búsqueda en un tema o área específicos.

Relaciones entre los términos del tesauro: *Relaciones de equivalencia (entre descriptores y no descriptores): En el lenguaje natural los conceptos pueden ser representados por distintos significantes, es decir, pueden tener sinónimos o cuasi-sinónimos. De esta manera, sólo uno de los términos es considerado como válido para la indización y la recuperación de información. Este término se denomina descriptor. El resto de términos equivalentes se denominan no descriptores. Por tanto, pueden ser no descriptores los sinónimos, los términos cuasisinónimos, las variantes ortográficas, las variedades lingüísticas, las abreviaturas y los acrónimos, las formas alternativas de los nombres propios o términos equivalentes en otra lengua. ->



–>Es decir, los términos no descriptores se incluyen en un tesauro principalmente para ayudar al usuario a encontrar los descriptores apropiados. En el tesauro, las relaciones entre los términos descriptores y no descriptores, y viceversa, se muestran mediante la notación USE y UP (Usado Por o UF Used For). Un término no descriptor se conecta normalmente al descriptor correspondiente mediante la referencia USE. La referencia correspondiente en la dirección opuesta es UP. *Relaciones jerárquicas entre los términos (relaciones semánticas): Las conexiones de TG (Término Genérico) y de TE (Término Específico) se utilizan para indicar relaciones jerárquicas entre los términos. En una relación jerárquica un término está por encima de otro término porque es más amplio en alcance. Normalmente, TG y TE son conexiones «inversas». Es decir, si A es un término más amplio que B, entonces B es un término más específico que A, y viceversa. Por ejemplo, si un tesauro contiene la entrada: plumas TG materiales de escritura también aparecerá materiales de escritura TE plumas. *Las relaciones jerárquicas pueden ser de distinto tipo: **Género/Especie: A es un término genérico de B  si todas las cosas incluidas en la clase nombrada por el término B se incluyen en la clase nombrada por el término A. **Jerarquía Parte-Todo:  A es un término genérico de B (y B es un término específico de A) si todo lo incluido en la clase nombrada por el término B es una parte de algo incluido en la clase nombrada por el término A. *Relaciones asociativas: Una referencia TR (Término Relacionado) se utiliza para la relación semántica nojerárquica en un tesauro. Normalmente, el TR es su propio tipo » inverso «en la conexión. Es decir si A tiene una referencia de tipo TR a B, entonces B debe tener una referencia TR hacia A. Por ejemplo, si un tesauro contiene la entrada: Plumas TR caligrafía también tendrá la entrada caligrafía TR plumas


Construcción automática de un tesauro: Una aproximación a la construcción automática de tesauros puede realizarse a partir de identificar aquellos términos que coocurren en mismos documentos. Para ello, primero hay que construir una tabla binaria término-

documento

A continuación, hay que calcular el grado de asociación entre los términos, para lo cual es posible utilizar distintos coeficientes, los cuales miden el número de documentos en que ellos ocurren o aparecen en comparación con el número de documentos en que los términos coocurren.  Si se utiliza como función de similaridad la del coseno propuesta por Saltón y McGill los coeficientes retornan valores entre 0 y 1. En general, este es la función más utilizada para calcular el grado de asociación entre términos. Si dos términos ocurren de forma exclusiva en los mismos documentos su coeficiente es 1, pero si no co-ocurren nunca su valor es 0. Luego, utilizando alguna técnica de agrupamiento derivada del área de clustering (técnicas de clasificación automática), es posible obtener conjuntos (también denominados clases o clusters) de términos de más de dos elementos relacionados por su semántica.

Retroalimentación por relevancia: En la retroalimentación por relevancia el objetivo perseguido es agregar términos y generar una nueva consulta. Con ésta, en una nueva operación de recuperación, se espera obtener nuevos documentos relevantes. Esto se logra a partir de que el usuario seleccione conjuntos de documentos relevantes y no relevantes, el sistema los analice y extraiga aquellos términos significativos. Con éstos se recalculan los pesos globales de todos los términos de la consulta de manera que ésta exprese más precisamente la necesidad de información del usuario.

Algoritmo de Rocchio: Cuando se expande de forma automática una consulta realizada por un usuario ésta se realimenta utilizando aquellos documentos recuperados en la –>


–>consulta inicial que el usuario ha señalado como relevantes. Rocchio propuso una forma de cálculo de los pesos donde su carácterística principal es que permite ajustar la importancia que se desea dar a los términos de los documentos relevantes de la consulta original y también a los de los documentos que no se consideran relevantes. Los pasos del algoritmo de Rocchio son: 1. Identificar conjuntos de documentos relevantes y no relevantes a una consulta de usuario. 2. Seleccionar nuevos términos del conjunto de documentos relevantes. En general se toman los que poseen mayor valor de TF*IDF. 3. Se adicionan los términos seleccionados en el paso 2 con los de la consulta original y se asignan nuevos pesos a cada uno en base a una función de ponderación. 4. Se procesa la nueva consulta.

Tema6. Análisis de cluster:
Concepto y carácterísticas:
El análisis de cluster es el nombre genérico de una amplia variedad de procedimientos que pueden ser usados para crear una clasificación. Es un conjunto de técnicas que permiten la identificación de objetos similares en un espacio multidimensional. Se trata de un procedimiento estadístico multivariante a partir del cual se generan clusters que son conjuntos agrupados por su similaridad. El objetivo es ordenar las observaciones en grupos tales que el grado de asociación natural sea alto entre los miembros del mismo grupo y bajo entre miembros de grupos diferentes. El análisis de cluster permitirá descubrir la estructura de categorías en las que mejor encajan las observaciones, casos o entidades. Algunas de las carácterísticas que debe satisfacer el análisis de cluster son: *La distribución de los objetos en las clases es independiente del orden de introducción de éstos en la colección. *La inclusión de las entidades en clases debe hacerse de manera rápida y poco costosa. *Debe facilitar la recuperación eficaz. *Debe ser posible la distribución homogénea de los objetos en las –>


–>clases que se generen.

Una vez que los grupos de organismos similares han sido encontrados, los miembros de cada uno de ellos deben ser analizados para determinar si representan especies biológicas diferentes. Una de las razones fundamentales para el rápido crecimiento y desarrollo de este tipo de técnicas es la importancia fundamental de la clasificación como un procedimiento científico. Las ciencias están construidas sobre clasificaciones que estructuran sus dominios de investigación. Algunas de las precauciones que es necesario tener respecto a los métodos cluster se refieren a que: *

La mayoría de los métodos de análisis de cluster son procedimientos que, en la mayor parte de los casos, no están soportados por un cuerpo de doctrina estadística teórica: **Son métodos heurísticos. Es un proceso que consiste en probar diferentes aproximaciones hasta encontrar la propuesta que mejor satisfaga las  condiciones del problema. **Esto contrasta con otros procedimientos como el análisis factorial. *La mayor parte de los métodos cluster han nacido al amparo de ciertas ramas de la ciencia, por lo que, inevitablemente, están impregnados de un cierto sesgo procedente de esas disciplinas: **Cada disciplina tiene sus propias preferencias tales como los tipos de datos a emplear en la construcción de la clasificación. **Así puede haber, por ejemplo, métodos que sean útiles en Psicología pero no en Biología o viceversa. *Distintos procedimientos cluster pueden generar soluciones diferentes sobre el mismo conjunto de datos. Clustering en la recuperación de información: En recuperación de información las técnicas de análisis multivariante se utilizan para la clasificación automática de los documentos. La clasificación de documentos sirve como mecanismo para la representación del conocimiento, y en la recuperación pueden ofrecer estrategias de búsqueda eficientes y resultados de búsqueda efectivos. –>
 


–> La eficiencia se produce haciendo posible para el usuario limitar la búsqueda a áreas temáticas específicas. La potencial efectividad del proceso de búsqueda de clusters parte de la «hipótesis de cluster» que mantiene que los documentos estrechamente asociados tienden a ser relevantes para una misma consulta. El uso de colecciones de documentos organizados mediante clasificación automática puede originar resultados de búsquedas que presentan tanto una alta exhaustividad, como una alta precisión. Además, la clasificación automática de documentos permite la creación de interfaces que soporten el browsing (o navegación por categorías) agrupando por áreas temáticas.

Técnicas de clustering


A grandes rasgos se distinguen dos grandes categorías de métodos para la generación de cluster, no jerárquicos y jerárquicos.
Los métodos no jerárquicos de clustering o generación automática de clases presentan las siguientes carácterísticas: 1.Dividen conjuntos de documentos en subgrupos formando clases, separándolos por sus diferencias. 2.No emplea relaciones jerárquicas entre clases. 3. Es necesario definir a priori el número de clusters, tamaño y forma. 4. No necesita muchos requisitos informáticos: puede dividir grandes conjuntos de datos y es menos costoso de implementar.
El método de clustering no jerárquico comienza con un grupo con N elementos el cual es dividido en K grupos los cuales se van ajustando dependiendo de las reglas de pertenencia. Los algoritmos no jerárquicos son heurísticos y en muchas ocasiones no es sencillo establecer los criterios para la creación eficaz de las clases puesto que necesitan que, previamente, se establezcan parámetros tales como el número de grupos que se quiere generar o qué criterios de agrupación utilizar–>


–>Además, la generación de los grupos iniciales puede variar de una ejecución a otra –es decir, dependiendo del método específico que se use para el clustering– y, por lo tanto, sus resultados pueden diferir. Hay diferentes estrategias que pueden ser empleadas a la hora de unir los clusters en las diversas etapas o niveles de un procedimiento jerárquico. Ninguna de éstas proporciona una solución óptima para todos los problemas que se pueden plantear, ya que es posible llegar a distintos resultados según el método elegido. El buen criterio del investigador, el conocimiento del problema planteado y la experiencia, sugerirá el método más adecuado. Es conveniente usar varios procedimientos con la idea de contrastar los resultados obtenidos y sacar conclusiones, tanto como si hubiera coincidencias en los resultados obtenidos con métodos distintos como si nos las hubiera. Los métodos jerárquicos se subdividen en aglomerativos y disociativos .Cada una de estas categorías presenta una gran diversidad de variantes. Los métodos aglomerativos/acumulativos también conocidos como ascendentes. Comienzan el análisis con tantos grupos como objetos haya. A partir de estas unidades iniciales se van formando grupos, de forma ascendente, hasta que al final del proceso todos los casos tratados están englobados en un mismo conglomerado. Los métodos disociativos/divisivos, también llamados descendentes. Realizan el proceso inverso del anterior. Comienzan con un conglomerado que engloba a todos los casos tratados y a partir de este grupo inicial, a través de sucesivas divisiones, se van formando grupos cada vez más pequeños.


El análisis de cluster según el método jerárquico aglomerativo es el más implementado en recuperación de información. Las técnicas de clustering o agrupación según métodos aglomerativos han de cumplir varias condiciones: 1 Politéticas: Que permitan la clasificación de objetos con diversas carácterísticas, diversas variables. Una clasificación politética está basada en un gran número de carácterísticas y no se exige que todos los objetos de un cluster posean todas las carácterísticas, (aunque sí que tengan cierta homogeneidad en ellas). 2 Tienen que ser algorítmicas: es decir, de creación automática lo que produce problemas para nombrar las clases que surgen. Las técnicas de clustering permiten crear grupos o clases automáticamente pero no los etiqueta, no les da nombre a cada uno. 3. Tienen que ser aglomerativas: Para construir un árbol o dendrograma en los que se transforma por medio de aglomeraciones sucesivas de los N elementos hasta llegar a sólo uno que representa los n totales. En los métodos aglomerativos n es el conjunto de individuos de la muestra, de donde resulta el nivel K=0, con n grupos. En el siguiente nivel K=1 se agruparán aquellos dos individuos que tengan mayor similitud resultando así n-1 grupos; a continuación, y siguiendo con la misma estrategia, se agruparán en el nivel posterior, aquellos dos individuos (o clusters ya formados) con menor distancia o mayor similitud; de esta forma, en el nivel L tendremos n-L grupos formados. Si se continúa agrupando de esta forma, se llega al nivel L=n-1 en el que sólo hay un grupo, formado por todos los individuos de la muestra.


Los métodos jerárquicos permiten la construcción de un árbol de clasificación, que recibe el nombre de dendrograma, en el cuál se puede seguir de forma gráfica el procedimiento de uníón seguido, mostrando qué grupos se van uniendo, en qué nivel concreto lo hacen, así como el valor de la medida de asociación (similaridad o distancia) entre los grupos cuando éstos se agrupan. En efecto, los elementos se agrupan en función de su alta similaridad o de su baja distancia, dos formas de expresar el concepto de proximidad entre elementos (la distancia se calcula como 1-similaridad, es decir dos elementos con similaridad 0,8 tendrán distancia 0,2 (1-0,8).

La forma general de operar de estos métodos aglomerativos es bastante simple:*Se parte de tantos grupos como individuos haya.*A continuación, se selecciona una medida de similitud, agrupándose los dos grupos o clusters con mayor similitud.*Así se continúa hasta que:Se forma un solo grupo.

Se alcanza el número de grupos prefijado o se detecta, a través de un contraste de significación, que hay razones estadísticas para no continuar agrupando clusters, ya que los más similares no son lo suficientemente homogéneos como para determinar una misma agrupación.

1.Problemas generales: Seleccionar el atributo o variable en torno a los cuales los documentos se agrupan y representan. 2.Seleccionar un buen método de agrupación. Como se verá a continuación, el análisis de cluster jerárquico aglomerativo la agrupación puede realizarse mediante varios métodos como el denominado método del vecino más lejano, más cercano, o el del promedio entre otros.3.Establecer cuál es la medida de semejanza o asociación a emplear.–>


4.Es costoso para el sistema crear grupos de jerarquías.5.Agrupar colecciones dinámicas.6.Seleccionar el método de búsqueda más adecuado.

Las diferentes técnicas de agrupación:vecino más cercano,vecino más lejano y la del promedio


La definición de ‘distancia más corta’ es lo que diferencia entre los diferentes métodos de aglomeración. En el método de agrupamiento del vecino más lejano la distancia entre los clústeres (objeto-objeto, objeto-cluster, cluster-cluster) se considera como la distancia entre los dos elementos (uno en cada grupo) que están más alejados entre sí.

Para aplicarlo se procede como sigue: 1. Conocidas las distancias o similaridades existentes entre cada dos elementos se observa cuáles son los elementos más próximos en cuanto a esta distancia o similaridad (qué dos componentes tienen menor distancia o mayor similaridad). 2.Estos formarán un grupo que no vuelve a separarse durante el proceso. Se mide la distancia o similaridad entre todos los elementos de nuevo de la siguiente forma: *Cuando se mide la distancia entre el grupo formado y un elemento, se toma la distancia máxima de los individuos del grupo al nuevo componente. *Cuando se mide la similitud o similaridad entre el grupo formado y un elemento, se toma la mínima de los individuos del grupo al nuevo componente.