Calcular la exhaustividad y precisión en los SRI
Diferencias entre un SRI y un SRD-SGBD: Las diferencias más significativas entre un sistema de recuperación de información (SRI) y un sistema de recuperación de datos (SRD) como lo es un Sistema de Gestión de Bases de Datos (SGBD) son: *Estructura: SGBD: Información estructurada con semántica bien definida. SRI: Información semi o no estructurada. *Recuperación: SGBD: Determinística. Todo el conjunto solución es relevante para el usuario. SRI: Probabilística. Una parte de los documentos recuperados puede no ser relevante. *Consulta y lenguaje: SGBD: Especificación precisa (no hay ambigüedad). Lenguaje formal, preciso y estructurado. SRI: Hay imprecisión en su formulación. Lenguaje natural, ambiguo y no estructurado. *Resultados: SGBD: Aciertos exactos SRI: Aciertos parciales
Métodos de recuperación de información y los motores de búsqueda: Los tres tipos de herramientas de búsqueda web existentes son, básicamente: los buscadores web, los directorios web y los metabuscadores. Los directorios web son sistemas de recuperación de información que clasifican documentos web seleccionados, los organizan por categorías temáticas jerárquicas, y permiten navegar por sus secciones o bien plantear ecuaciones de búsqueda específicas. El primer directorio destacado existente en la Web fue Yahoo Directory. Por su parte, los buscadores web indizan una parte de los documentos alojados en la globalidad de la Web y permiten recuperar información a través de la formulación de una consulta.
Ej: Google. Los metabuscadores permiten realizar las consultas de información en varios buscadores al mismo tiempo. Los metabuscadores no cuentan con una base de datos propia sino que redirigen las búsquedas a las bases de datos de diferentes herramientas web, adecuando la expresión de consulta a los diferentes buscadores a los que acceden. No permiten realizar búsquedas tan avanzadas como en un buscador web. Tras realizar un filtrado de los resultados, sólo muestra un número limitado->
de enlaces, los que considera más importantes. Ej: Dogpile. Los motores de búsqueda: paradigma de la recuperación de información en Internet
Todos los buscadores parten de una lista de direcciones que sirve de punto de partida para el robot del buscador. Un buscador compila automáticamente las URLs de las páginas que formarán parte de su índice (base de datos) tras indizarlas. Una vez estén estos registros almacenados en la base de datos del buscador, los usuarios buscarán en dicho índice por medio de una interfaz de consulta. El módulo que realiza esta recopilación es conocido comúnmente como robot web, recogiendo información sobre las páginas que encuentra. Esa información se indiza y se introduce en una base de datos que será explorada posteriormente utilizando un motor de búsqueda. Estos robots recopilan varios millones de páginas por día, y actualizan la información depositada en los índices en cortos períodos de tiempo. Para llevar a cabo la indización del contenido de las URLs la mayoría de los buscador es calculan el número de veces que se repiten las diferentes palabras claves en el cuerpo de una página, analizan si estas palabras aparecen en el nombre del dominio o en la URL, en el título de la página, en el encabezado y en los metadatos. El orden en que se busca en cada uno de estos el ementos varía en función del buscador (cada uno usa sus propios algoritmos con criterios diferentes). Si el motor encuentra que dete rminadas palabras claves cumplen todos estos criterios, les asigna un peso mayor en ese documento.
Los buscadores web muestran los resultados ordenados por relevancia. Para ello, cada buscador cuenta con su propio algoritmo de ranking de resultados en función de unos criterios de relevancia.
Precisión y exhaustividad: Existen dos medidas ampliamente aceptadas en la comunidad de RI denominadas precisión y exhaustividad planteadas por Cleverdon hace décadas. La exhaustividad se define como la proporción de->
los documentos relevantes que han sido recuperados y permite evaluar la habilidad del sistema para encontrar todos los documentos relevantes de la colección. La precisión se define como la proporción de los documentos recuperados que son relevantes y permite evaluar la habilidad del sistema para rankear primero la mayoría de los documentos relevantes. Estas dos medidas se encuentran altamente relacionadas. Empíricamente se ha comprobado que una alta exhaustividad se acompaña de una muy baja precisión y viceversa. Tanto la precisión como la exhaustividad evalúan la calidad del conjunto de documentos recuperados como tal, como un conjunto.
Medidas de evaluación y colecciones Aunque la exhaustividad y la precisión son las medidas más aceptadas y aplicadas por la comunidad investigadora, otras medidas complementarias son: *Precisión-R, la cual corresponde al valor de la precisión en la posición R-ésima, donde R es la cantidad de documentos relevantes para una consulta. *Score-F. Esta medida combina la precisión y la exhaustividad en un único valor. *Medida-E. También combina exhaustividad y precisión pero con la posibilidad de ponderar la importancia relativa de una u otra y se calcula para un tamaño determinado de respuesta. *Tasa de fallo. Determina el porcentaje de documentos recuperados no relevantes sobre el total de documentos no relevantes del corpus. *Ruido. Determina la proporción de documentos irrelevantes hallados en el juego de documentos recuperados. *Generalidad. Corresponde a la proporción de documentos relevantes existentes en el corpus sobre todos los documentos del corpus. Una colección con un valor de generalidad alto, para una consulta, tiene mayoría de documentos relevantes que irrelevantes. Para la evaluación se requiere contar con colecciones conocidas sobre las cuales se puedan determinar consultas y la relevancia de los documentos respecto de éstas, para luego calcular las->
métricas. Estas colecciones se fueron desarrollando con el tiempo y evolucionaron en tamaño y calidad. De manera genérica, suelen denominarse colecciones de prueba o evaluación y, básicamente, están formadas por tres componentes: 1) Un conjunto de documentos que constituyen el corpus 2) Un conjunto de necesidades de información 3) Juicios de relevancia. En la actualidad, existen grandes colecciones de prueba que son utilizadas por los grupos de investigación para la evaluación de sus sistemas.
Ponderación TF-IDF: El cálculo del peso de un término en un documento es el producto de su frecuencia de aparición en dicho documento (TF) y su frecuencia inversa de documento (IDF)
La ley de Zip y la frecuencia de aparición de los términos de la colección: la ténica de cortes de Luhn: La ley de Zip y la frecuencia de aparición: Con esta ley se determina que la frecuencia de cualquier palabra es inversamente proporcional a la posición que ocupa en la tabla de frecuencias. La frecuencia de aparición de una palabra es inversamente proporcional a su número de orden y de esta forma, se repetiría con todos los términos del texto. Al ser una ley empírica, cuando se calcula la constante K para todos los términos del ranking, no siempre el valor es coincidente con la frecuencia de aparición de tf. Zipf llega a esta conclusión basándose en la ley del mínimo esfuerzo, ya que se supone que el usuario no utilizará términos de búsqueda cuya frecuencia de aparición sea tan baja o tan elevada como para encontrarse en los bordes potenciales del cuadro logarítmico, prefiriendo utilizar por consiguiente un término más común o habitual con una frecuencia de aparición media. En definitiva, se utiliza para facilitar la representación e interpretación.
Técnica de cortes de Luhn: Cut-on y Cut-off: La expresión logarítmica de los términos de un documento, muestra una curva pronunciada con->
los términos de altísima frecuencia de aparición y su inverso, aquellos términos de muy baja frecuencia de aparición. Este hecho, ya adelantado por Zipf, dio lugar al empleo de la técnica de cortes que propuso Luhn en 1958, conjetura por la que ya se venía intuyendo que los términos situados en los extremos del eje de abscisas y de ordenadas serán los que menos poder de resolución o representatividad tienen para un determinado documento dentro de la colección. La técnica de cortes se puede utilizar para la “poda” del vocabulario de la base de datos.
Esta técnica consiste en la eliminación de los términos de altísima frecuencia de aparición (Cut-on) y términos de bajísima frecuencia de aparición (Cut-off). En definitiva, las palabras que describen de mejor forma el contenido se encuentran en un área comprendida entre las altamente frecuentes y las de baja frecuencia, es decir, las muy raras. Los términos con alta frecuencia de aparición suelen ser generales. Por su parte, los términos de baja frecuencia son específicos, pertenecen a la terminología especializada de un determinado área de conocimiento.
El modelo de espacio vectorial en recuperación de información: El modelo de espacio vectorial, también denominado modelo vectorial, fue desarrollado por Gérald Saltón como parte del proyecto de su sistema SMART. Se basa en cálculos que permiten introducir un orden (ranking) en los documentos recuperados en función de su relevancia respecto de la consulta. Plantea la necesidad de utilizar una función de similitud o similaridad entre el documento y la consulta. En el modelo vectorial, cada documento de la colección está representado por un vector t dimensional, donde t es la cardinalidad del conjunto de términos indexados que representan a un corpus de documentos. Cada elemento del vector corresponde al peso del término asociado a esa dimensión. En un esquema binario se asigna a los elementos del vector un 1 si la palabra->
forma parte de documento o un 0 en caso contrario. No obstante, es de uso común que los pesos asociados a los términos indiquen una medida de relevancia basada en un cálculo de frecuencias.
Generalmente, se utiliza la métrica de ponderación TF*IDF: Similaridad consulta-documento o documento-documento:Existen varias formas de calcular la similitud entre dos vectores. La similitud medida por el coseno del ángulo que forman el vector documento y el vector consulta, es la más popular de las métricas de semejanza. El modelo vectorial es ampliamente utilizado ya que aporta visibles ventajas respecto del modelo booleano. Principalmente: *El uso de pesos mejora las prestaciones de la recuperación puesto que permite mostrar documentos parcialmente relevantes. *La aplicación de medidas de similaridad proporciona un método de ranking de los resultados.*Mediante esta representación se puede medir la similitud entre diferentes objetos: documentos y consultas, documentos y documentos, oraciones y consultas, etc.
Valor de discriminación de los términos: Es un proceso que tiene por finalidad detectar aquellos términos del vocabulario de una colección que identifiquen de mejor manera a los documentos. En otras palabras, se clasifican los términos de un texto según la capacidad de éstos para discriminar unos documentos de otros en un corpus. La determinación del valor de discriminación de un término t (VDT) en una colección C se calcula de la siguiente forma: Primero, se calcula la similaridad de cada documento con respecto a los demás de la colección. Luego, se repite la misma operación para cada término del vocabulario pero sin considerarlo en el cálculo. A continuación, se computa la diferencia de cada promedio obtenido menos el promedio de la colección. Si esta diferencia para un término t es negativa, se considera que t no es un buen discriminador y debería ser eliminado del vocabulario.->
Para valores cercanos a cero, t es bastante frecuente en los documentos de la colección y posee un valor de discriminación bajo. En cambio, para valores grandes superiores a cero, t es un buen término discriminador de documentos. Los valores de discriminación obtenidos mediante este proceso se pueden dividir en tres grupos: *Los términos que son pobres discriminadores tienen altos vd negativos. *Los términos que son discriminadores indiferentes tienen valores próximos a cero.*Los términos con altos vd positivos son buenos discriminadores.
La densidad del espacio documental: El valor de discriminación (vd) de un término es la capacidad de ese término de separar o distanciar documentos. Es decir, el vd mide la capacidad de un término para incrementar o reducir la similaridad entre los documentos de una base de datos. Si consideramos el espacio vectorial como un espacio euclidiano de n dimensiones, los documentos serán puntos de ese espacio y los componentes de los vectores serán sus coordenadas. Existe una relación inversamente proporcional entre la distancia entre dos puntos y el coeficiente de similaridad de los documentos que representan esos puntos: Cuando los puntos de este espacio están cerca, los documentos que representan tienen muchos términos de indización comunes con pesos altos, es decir, son temáticamente afines. Cuando los puntos están alejados entre sí, los documentos que representan tienen pocos términos de indización comunes, son temáticamente poco afines. Esto nos lleva a la consideración de densidad del espacio (ligado al valor de discriminación) que conforman los pesos de los documentos indizados en una base de datos. En términos físicos esto podría llevarnos a las siguientes conclusiones: a) La densidad del espacio que conforman los pesos de los documentos indizados en una base de datos es la expresión de la afinidad temática de los documentos, representada ésta por la totalidad de los términos de indización utilizados->
para expresar sus contenidos. b)El cálculo de la densidad de ese espacio se realiza mediante la determinación de la suma total de los coeficientes de similaridad (SIM) entre todos los pares posibles de documentos existentes en la base de datos.
Cálculo del valor de discriminación. El valor de discriminación se puede calcular de dos formas: *Cálculo por el método exacto: 1. Se calcula la similaridad media (sm) 2. Se elimina un término de indización de la base de datos 3. Se calcula la similaridad media sin el término de indización (smi) 4. La resta de los valores de similaridad obtenidos anteriormente proporciona el valor de discriminación del término de indización excluido. *Cálculo por el método aproximado: 1. Se calculan los componentes del vector del documento centroide: los componentes del vector son el valor promedio de todos los valores de los vectores que forman el espacio vectorial. 2. Cálculo del coeficiente de sim de cada vector con el centroide y cálculo de la similaridad media sm, acumulando todos los coeficientes. 3. Se van eliminando términos y recalculando la similaridad media para restar a cada una de ellas la similaridad media total. 4. El resultado obtenido es el valor de discriminación aproximado del término de indización correspondiente.
Construcción automática de tesauros: Una aproximación a la construcción automática de tesauros puede realizarse a partir de identificar aquellos términos que coocurren en mismos documentos. Para ello, primero hay que construir una tabla binaria término-documento. A continuación, hay que calcular el grado de asociación entre los términos, para lo cual es posible utilizar distintos coeficientes, los cuales miden el número de documentos en que ellos ocurren o aparecen en comparación con el número de documentos en que los términos coocurren. Si se utiliza como función de similaridad la del coseno propuesta por Saltón y McGill los coeficientes retornan valores entre->
0 y 1. En general, este es la función más utilizada para calcular el grado de asociación entre términos. Si dos términos ocurren de forma exclusiva en los mismos documentos su coeficiente es 1, pero si no co-ocurren nunca su valor es 0. Luego, utilizando alguna técnica de agrupamiento derivada del área de clustering (técnicas de clasificación automática), es posible obtener conjuntos (también denominados clases o clusters) de términos de más de dos elementos relacionados por su semántica.
Algoritmo de Rocchio: Cuando se expande de forma automática una consulta realizada por un usuario ésta se realimenta utilizando aquellos documentos recuperados en la consulta inicial que el usuario ha señalado como relevantes. Rocchio propuso una forma de cálculo de los pesos donde su carácterística principal es que permite ajustar la importancia que se desea dar a los términos de los documentos relevantes de la consulta original y también a los de los documentos que no se consideran relevantes. Los pasos del algoritmo de Rocchio son los siguientes: 1. Identificar conjuntos de documentos relevantes y no relevantes a una consulta de usuario. 2. Seleccionar nuevos términos del conjunto de documentos relevantes. En general se toman los que poseen mayor valor de TF*IDF. 3. Se adicionan los términos seleccionados en el paso 2 con los de la consulta original y se asignan nuevos pesos a cada uno en base a una función de ponderación. 4. Se procesa la nueva consulta.
Técnicas de agrupación en análisis de cluster:Algunas de las más extendidas son la del vecino más cercano, vecino más lejano y la del promedio.Si bien todos los métodos de agrupación van fusionando progresivamente en una clase los dos elementos (objeto-objeto, objeto-cluster, cluster-cluster) más similares entre sí, la forma de hacerlo da lugar a diferentes técnicas. El método de agrupamiento del vecino más lejano es una de las más aplicados en recuperación de información de entre los->
diferentes métodos de aglomerativos de clustering jerárquico. En todos los métodos de agrupación, al principio del proceso, cada elemento está en ungrupo propio (individualmente). Los clusters se combinan secuencialmente en grupos más grandes hasta que todos los elementos terminan estando en el mismo grupo. En cada paso se combinan los dos grupos separados por la distancia más corta (o similaridad máxima). La definición de ‘distancia más corta’ es lo que diferencia entre los diferentes métodos de aglomeración. En el método de agrupamiento del vecino más lejano la distancia entre los clústeres (objeto-objeto, objeto-cluster, cluster-cluster) se considera como la distancia entre los dos elementos (uno en cada grupo) que están más alejados entre sí. Para aplicarlo se procede: Conocidas las distancias o similaridades existentes entre cada dos elementos se observa cuáles son los elementos más próximos en cuanto a esta distancia o similaridad. Estos formarán un grupo que no vuelve a separarse durante el proceso. Se mide la distancia o similaridad entre todos los elementos de nuevo de la siguiente forma: *Cuando se mide la distancia entre el grupo formado y un elemento, se toma la distancia máxima de los individuos del grupo al nuevo componente. *Cuando se mide la similitud o similaridad entre el grupo formado y un elemento, se toma la mínima de los individuos del grupo al nuevo componente.
Condiciones que han de cumplir los métodos de clustering y problemas generales que presentan: Las técnicas de clustering o agrupación según métodos aglomerativos han de cumplir varias condiciones: *Politéticas: Que permitan la clasificación de objetos con diversas carácterísticas, diversas variables. Una clasificación politética está basada en un gran número de carácterísticas y no se exige que todos los objetos de un cluster posean todas las carácterísticas. *Tienen que ser algorítmicas: es decir, de creación automática lo que produce->
problemas para nombrar las clases que surgen. Las técnicas de clustering permiten crear grupos o clases automáticamente pero no los etiqueta, no les da nombre a cada uno. *Tienen que ser aglomerativas: Para construir un árbol o dendrograma en los que se transforma por medio de aglomeraciones sucesivas de los N elementos hasta llegar a sólo uno que representa los n totales.
Problemas generales: *Seleccionar el atributo o variable en torno a los cuales los documentos se agrupan y representan. *Seleccionar un buen método de agrupación. Como se verá a continuación, el análisis de cluster jerárquico aglomerativo la agrupación puede realizarse mediante varios métodos como el denominado método del vecino más lejano, más cercano, o el del promedio entre otros. *Establecer cuál es la medida de semejanza o asociación a emplear *Es costoso para el sistema crear grupos de jerarquías *Agrupar colecciones dinámicas *Seleccionar el método de búsqueda más adecuado