Concepto de ponderación de términos
Tema 3. El Preprocesamiento de la información
1. ENFOQUES DE INDEXACIÓN: El proceso de indexación puede realizarse desde dos enfoques: uno basado en métodos no lingüísticos y otro basado en métodos lingüísticos. En el primer caso, se utilizan técnicas estadísticas para análisis de frecuencias y cálculo de pesos de los términos, análisis de probabilidades para determinación de multipalabras y técnicas de agrupamiento. En el segundo caso, se utilizan técnicas derivadas del procesamiento del lenguaje natural, las cuales pretenden imitar el comportamiento de los indizadores humanos.
1.1. Indexación en base a técnicas lingüísticas:
Existen diversas técnicas que se pueden utilizar basadas en el enfoque lingüístico. *Procesamiento morfológico-léxico: la idea principal del procesamiento morfológico-léxico es convertir un flujo de caracteres a un flujo de palabras, para lo cual deberá tener técnicas para tratar los números, guiones, signos de puntuación, acrónimos, etc. Por tanto, el uso del analizador morfológico permite que el análisis estadístico de frecuencias de aparición de términos en los documentos que habitualmente se realiza, se lleve a cabo sobre datos que han sido previamente tratados. *Procesamiento sintáctico: el objetivo principal es describir la estructura de las oraciones que componen los documentos. En el análisis sintáctico se separan las unidades lingüísticas con sentido simple o compuesto y se desambiguan las categorías gramaticales asignadas por el analizador morfológico. *Procesamiento semántico: El objetivo del análisis semántico es identificar el significado de las palabras y, a partir de éstas, de las oración que la forman. Una de las tareas más difíciles es la resolución de la ambigüedad de las palabras. La idea básica consiste en utilizar recursos externos para desambiguar las palabras.
1.2. Indexación en base a técnicas no lingüísticas:
La indexación de base no lingüística se fundamenta en el análisis de la frecuencia de los términos y su distribución dentro de los documentos. Este análisis tiene como objeto establecer criterios que permitan determinar si una palabra es un término de indexación válido. *Análisis léxico del texto: es aquél consistente en la conversión de una secuencia de caracteres, es decir, el texto de los documentos o consultas, en una secuencia de palabras candidatas a ser adoptadas como términos índice por el sistema.Se considerarán habitualmente tres tipos de caracteres: caracteres de palabra, caracteres interpalabra, y caracteres especiales. *Eliminación de stopwords: son aquellas palabras de escasa utilidad en la recuperación de información. Dada su poca utilidad, dichas palabras pueden ser desechadas como términos de indización, lo que permite a su vez un considerable ahorro de recursos. Asimismo, en el caso del texto de las consultas es conveniente eliminar también el contenido de su metanivel, es decir, aquellas expresiones correspondientes a la formulación de la consulta y de las preferencias del usuario acerca de la misma, y que no aportan información alguna a la búsqueda. *Stemming y lematización: el stemming consiste en la reducción de una palabra a su stem o supuesta raíz mediante la eliminación de sus terminaciones o sufijos. Si bien el objetivo principal del stemming es el de reducir las diferentes formas lingüísticas de una palabra a una forma común o stem, y así facilitar el acceso a la información durante el posterior proceso de búsqueda, paralelamente se está reduciendo el número de términos diferentes del sistema, lo que permite a su vez una segunda reducción de los recursos de almacenamiento requeridos. Por su parte, la lematización permite identificar la forma canónica de una palabra, es decir, su lema.
*Frecuencia de aparición de un término(TF o Term Frequency): *Denominación: Term Frequency= frecuencia de aparición del término. *Descripción: Es la frecuencia de aparición de un término a lo largo de un documento.
Dicho de otra forma, el número de veces que este se repite en el documento, lo que permite determinar su capacidad de representación. *Finalidad: Representativa *Casos: Frecuencia de aparición TF baja. Representatividad elevada. Frecuencia de aparición TF media. Frecuencia de aparición TF muy alta. Muy baja representatividad. Su cálculo se efectúa una vez el texto del documento ha sido “normalizado”, según los procesos de depuración mencionados en apartados anteriores. *Frecuencia inversa del documento para un término: *Denominación: Inverse Document Frecuency= Frecuencia inversa del Documento para un término. *Descripción: Es el coeficiente que determina la capacidad discriminatoria del término de un documento con respecto a la colección. Es decir, distinguir la homogeneidad o heterogeneidad del documento a través de sus términos. *Finalidad: Discriminatoria. *Casos: Poder discriminatorio bajo. El término es genérico y aparece en la mayoría de los docs. Poder discriminatorio medio. Poder discriminatorio alto. El término es especializado y aparece en pocos docs.
El factor IDF se calcula aplicando el logaritmo en base 10 de N
Ponderación TF-IDF: El cálculo del peso de un término en un documento es el producto de su frecuencia de aparición en dicho documento (TF) y su frecuencia inversa de documento.
La ley de Zip y la frecuencia de aparición: Con esta ley se determina que la frecuencia de cualquier palabra es inversamente proporcional a la posición que ocupa en la tabla de frecuencias.La frecuencia de aparición de una palabra es inversamente proporcional a su número de orden y de esta forma, se repetiría ->
-> con todos los términos del texto. Como se observará, al ser una ley empírica, cuando se calcula la constante K para todos los términos del ranking, no siempre el valor es coincidente con la frecuencia de aparición de tf. Zipf llega a esta conclusión basándose en la ley del mínimo esfuerzo, ya que se supone que el usuario no utilizará términos de búsqueda cuya frecuencia de aparición sea tan baja o tan elevada como para encontrarse en los bordes potenciales del cuadro logarítmico, prefiriendo utilizar por consiguiente un término más común ó habitual con una frecuencia de aparición media. En definitiva, se utiliza para facilitar la representación e interpretación.
Técnica de cortes de Luhn: Cut-on y Cut-off: la expresión logarítmica de los términos de un documento, muestra una curva pronunciada con los términos de altísima frecuencia de aparición y su inverso, aquellos términos de muy baja frecuencia de aparición. Este hecho dio lugar al empleo de la técnica de cortes que propuso Luhn en 1958, conjetura por la que ya se venía intuyendo que los términos situados en los extremos del eje de abscisas y de ordenadas serán los que menos poder de resolución o representatividad tienen para un determinado documento dentro de la colección. La técnica de cortes se puede utilizar para la “poda” del vocabulario de la base de datos. Esta técnica consiste en la eliminación de los términos de altísima frecuencia de aparición (Cut-on) y términos de bajísima frecuencia de aparición (Cut-off). Las palabras que describen de mejor forma el contenido se encuentran en un área comprendida entre las altamente frecuentes y las de baja frecuencia, es decir, las muy raras. Los términos con alta frecuencia de aparición suelen ser generales. . Por su parte, los términos de baja frecuencia son específicos, pertenecen a la terminología especializada de un determinado área de conocimiento, vocabulario técnico, científico, hápax
Tema 4. 1. Modelos de recuperación de información: La recuperación de información trata de encontrar documentos relevantes de acuerdo a una necesidad de información de un usuario expresada como una consulta. Como se ha mencionado, esta tarea es imprecisa debido a las decisiones que se adoptan a lo largo de todo el proceso. Los modelos de recuperación de información definen cuáles son las premisas que se tienen en cuenta para determinar si un documento es relevante, o no, a una necesidad de información. En otras palabras, un modelo determina cómo se realizará la comparación entre consulta y documentos para calcular una medida de similitud o similaridad que permita determinar la relevancia de dichos documentos así como su posición en el ranking de resultados. 1.2. Modelos clásicos: Hay tres: el modelo booleano, el modelo vectorial, el modelo probabilístico
El Modelo Booleano: Está basado en la teoría de conjuntos y en el álgebra de Boole. Su uso es de larga trayectoria y se ha aplicado con frecuencia a sistemas de recuperación de información comercializados y utilizados frecuentemente por los usuarios. En este modelo, cada documento se representa por un conjunto de términos, donde cada uno se trata como una variable booleana que se determina como verdadero si el término está presente en el documento o falso si no lo está. El modelo booleano se define como: D Conjunto de términos presentes en los documentos. Q expresión booleana formada por término y operadores (OR, AND, NOT). F álgebra booleana aplicada a los conjuntos de términos y documentos. R un documento se considera relevante a una consulta si satisface la expresión de consulta. No existe un ranking alguno. Las búsquedas se dividen en base a los términos que las componen. Primero se recuperan los conjuntos de documentos asociados a cada término. Luego, tales conjuntos son combinados de acuerdo a los operadores booleanos para obtener ->
-> un único conjunto solución. La consulta expresada en el modelo booleano se puede plantear como: Consulta = ballena AND franca AND austral AND (‘Península Valdés‘ OR ‘Puerto Madryn‘) AND reproducción. Uno de los puntos débiles del modelo booleano se refiere a que en ciertas situaciones puede ofrecer resultados no óptimos.
Operadores complementarios: Para aumentar las prestaciones del modelo, se ha enriquecido el lenguaje de consulta. Se pueden distinguir los siguientes operadores complementarios a los booleanos:Operadores posicionales,operadores de comparación,operadores de truncamiento. El uso de estos operadores potencia las capacidades de un sistema de recuperación basado en el modelo booleano. Consideran el valor del término dentro de su contexto. Los operadores posicionales se dividen en dos clases: 1.Posicionales absolutos: Posibilitan buscar un término en un lugar determinado del documento. Trabajan como operadores de campo, permitiendo que el usuario determine sobre qué campo/s se debe restringir la búsqueda.2 .Posicionales relativos o de proximidad: Posibilitan establecer la posición o separación máxima de un término respecto a otro dado. Se basan en el principio referido a que si dos términos ocurren en un mismo contexto puede haber una relación significativa. Por su parte, los operadores de comparación determinan un rango de búsqueda, fijando límites para la consulta. Tales límites pueden ser tanto numéricos como alfabéticos. Los operadores correspondientes adquieren formas del tipo «mayor que», «menor o igual que». En ciertas ocasiones, es necesario buscar por una familia de términos relacionados morfológicamente. Para facilitar este tipo de búsquedas se han introducido operadores de truncamiento, los que definen máscaras de consulta. Se trata de operadores que, normalmente, se los denota con símbolos como *, ? (comodines) ->
->y cuya presencia puede sustituir a un carácter o a un conjunto de éstos.
Modelo Booleano extendido y Modelo fuzzy logic
Como alternativa al modelo booleano puro se han propuesto el modelo booleano extendido y el basado en la teoría de la lógica difusa. El modelo booleano extendido trata de contemplar el problema de establecer un ranking sobre el conjunto de documentos resultantes ante una consulta. Para calcular la posición que le corresponde en el ranking a cada documento resultante, se utiliza como valores numéricos la frecuencia de los términos de la consulta en cada documento recuperado, y se computa la relevancia en base a una función de ordenación o ranking. El modelo de lógica borrosa o lógica difusa (fuzzy logic) se basa en la teoría de conjuntos borrosos o conjuntos difusos. De manera general, para cada término se define un conjunto difuso donde cada documento tendrá un determinado grado de pertenencia En la teoría clásica de conjuntos (como la que se aplica en el modelo booleano) un elemento está en un conjunto dado o no lo está. En la teoría de conjuntos difusos cada elemento tiene un grado de pertenencia asociado respecto a un conjunto dado, que representa, en algún sentido, la fuerza de la pertenencia a un conjunto. Los grados de pertenencia habitualmente son valores comprendidos entre 0.0 y 1.0.
Modelo de espacio vectorial:El modelo de espacio vectorial, también denominado modelo vectorial, fue desarrollado por Gérald Saltón como parte del proyecto de su sistema SMART (System for Manipulation and Retrieval Text, 1968). Se basa en cálculos que permiten introducir un orden (ranking) en los documentos recuperados en función de su relevancia respecto de la consulta. Plantea la necesidad de utilizar una función de similitud o similaridad entre el documento y la consulta.En el modelo vectorial ->
-> cada documento de la colección está representado por un vector t dimensional, donde t es la cardinalidad del conjunto de términos indexados que representan a un corpus de documentos. Cada elemento del vector corresponde al peso del término asociado a esa dimensión. En un esquema binario se asigna a los elementos del vector un 1 si la palabra forma parte de documento o un 0 en caso contrario. No obstante, es de uso común que los pesos asociados a los términos indiquen una medida de relevancia basada en un cálculo de frecuencias. Generalmente, se utiliza la métrica de ponderación TF*IDF, la cual ha sido explicada en otro tema.
Similaridad consulta-documento o documento-documento: Existen varias formas de calcular la similitud entre dos vectores. La similitud medida por el coseno del ángulo que forman el vector documento y el vector consulta, es la más popular de las métricas de semejanza. El modelo vectorial es ampliamente utilizado ya que aporta visibles ventajas respecto del modelo booleano. Principalmente: *El uso de pesos mejora las prestaciones de la recuperación puesto que permite mostrar documentos parcialmente relevantes. *La aplicación de medidas de similaridad proporciona un método de ranking de los resultados. *Mediante esta representación se puede medir la similitud entre diferentes objetos: documentos y consultas, documentos y documentos, oraciones y consultas, etc.
2, Valor de discriminación de los términos. Concepto: es un proceso que tiene por finalidad detectar aquellos términos del vocabulario de una colección que identifiquen de mejor manera a los documentos. En otras palabras, se clasifican los términos de un texto según la capacidad de éstos para discriminar unos documentos de otros en un corpus. La determinación del valor de discriminación de un término t (VDT) en una colección C se calcula de la siguiente forma: ->
-> Primero, se calcula la similaridad de cada documento con respecto a los demás de la colección. Luego, se repite la misma operación para cada término del vocabulario pero sin considerarlo en el cálculo. A continuación, se computa la diferencia de cada promedio obtenido menos el promedio de la colección. Si esta diferencia para un término t es negativa, se considera que t no es un buen discriminador y debería ser eliminado del vocabulario. Para valores cercanos a cero, t es bastante frecuente en los documentos de la colección y posee un valor de discriminación bajo. En cambio, para valores grandes superiores a cero, t es un buen término discriminador de documentos. Los valores de discriminación obtenidos mediante este proceso se pueden dividir en tres grupos: *Los términos que son pobres discriminadores tienen altos vd negativos. *Los términos que son discriminadores indiferentes tienen valores próximos a cero. *Los términos con altos vd positivos son buenos discriminadores.
La densidad del espacio documental: El valor de discriminación (vd) de un término es la capacidad de ese término de separar o distanciar documentos. Es decir, el vd mide la capacidad de un término para incrementar o reducir la similaridad entre los documentos de una base de datos. Si consideramos el espacio vectorial como un espacio euclidiano de n dimensiones, los documentos serán puntos de ese espacio y los componentes de los vectores serán sus coordenadas. Existe una relación inversamente proporcional entre la distancia entre dos puntos y el coeficiente de similaridad de los documentos que representan esos puntos: Cuando los puntos de este espacio están cerca, los documentos que representan tienen muchos términos de indización comunes con pesos altos, es decir, son temáticamente afines. Cuando los puntos están alejados entre sí, los documentos que representan tienen pocos términos de indización –y de poco peso– comunes, son temáticamente poco afines.->
->Esto nos lleva a la consideración de densidad del espacio (ligado al valor de discriminación) que conforman los pesos de los documentos indizados en una base de datos. En términos físicos esto podría llevarnos a las siguientes conclusiones: a) La densidad del espacio que conforman los pesos de los documentos indizados en una base de datos es la expresión de la afinidad temática de los documentos, representada ésta por la totalidad de los términos de indización utilizados para expresar sus contenidos. B) El cálculo de la densidad de ese espacio se realiza mediante la determinación de la suma total de los coeficientes de similaridad (SIM) entre todos los pares posibles de documentos existentes en la base de datos.
Cálculo del valor de discriminación. El valor de discriminación se puede calcular de dos formas: *Cálculo por el método exacto: 1. Se calcula la similaridad media (sm) 2.Se elimina un término de indización de la base de datos 3.Se calcula la similaridad media sin el término de indización (smi) 4.La resta de los valores de similaridad obtenidos anteriormente proporciona el valor de discriminación del término de indización excluido: *Cálculo por el método aproximado: 1. Se calculan los componentes del vector del documento centroide: los componentes del vector son el valor promedio de todos los valores de los vectores que forman el espacio vectorial. 2. .Cálculo del coeficiente de sim de cada vector con el centroide y cálculo de la similaridad media sm, acumulando todos los coeficientes. 3. Se van eliminando términos y recalculando la similaridad media para restar a cada una de ellas la similaridad media total. 4.El resultado obtenido es el valor de discriminación aproximado del término de indización correspondiente.
3. Estructuras de datos en recuperación de información
En este apartado se presentan las estructuras de datos básicas para la implementación de sistemas de recuperación de información. A partir de los conceptos y las técnicas planteadas en el tema sobre preprocesamiento de textos, resulta necesario contar con estructuras de datos eficientes que soporten las estrategias de búsquedas, de acuerdo al modelo de RI implementado en cada sistema.La recuperación de información parte de un conjunto de documentos o colección, los cuales han de ser procesados de alguna forma para responder a consultas de los usuarios.Con el objetivo de lograr mayor eficiencia en la tarea de recuperación, se construyen estructuras de datos auxiliares que soportan la representación lógica de todos los documentos de la colección. De forma genérica, estas estructuras reciben el nombre de índices. Los índices permiten el acceso directo a los documentos que contienen los términos de la consulta. El contenido del índice está formado por el conjunto de términos que contienen todos los documentos de la colección, es decir, el vocabulario. Puesto que todos los términos de todos los documentos son potenciales claves de búsqueda, el índice, para un sistema de RI, contiene todo el vocabulario. Otra cuestión importante a tener en cuenta para la creación de índices es que su contenido varía de acuerdo al modelo de RI que debe soportar.La presencia de pares término/documento alcanza para el modelo booleano.Además, el archivo inverso es una estructura de datos que contiene información de posición donde cada término ocurre, con respecto al inicio del documento.