Indización y Búsqueda con Vocabulario Controlado: Optimización de la Recuperación de Información
Vocabulario Controlado en la Indización
Un vocabulario de indización sirve para:
- Permitir la representación consistente de la materia de los documentos.
- Conseguir la coincidencia entre los vocabularios de recuperador e indizador.
- Proporcionar medios con los que el usuario pueda variar una estrategia de búsqueda para conseguir resultados más amplios o selectivos, según sus necesidades.
Hay que tener en cuenta que la indización de materias supone dos procesos distintos: el análisis del contenido temático y la traducción de éste a términos seleccionados de algún vocabulario.
Durante la indización pueden darse varios errores que tendrán efectos negativos sobre el rendimiento del sistema de recuperación. Hay cinco tipos de problemas:
- Fallos en el análisis conceptual.
- Fallos en la traducción.
- Error de omisión: El indizador omite un aspecto importante del documento durante el análisis conceptual.
- Falta de especificidad en el vocabulario: El indizador se ve obligado a indicar el documento con un término genérico porque el vocabulario del sistema no contiene suficientes términos específicos.
- Falta de especificidad en la indización: El indizador utiliza términos que son más genéricos que la materia concreta del documento, a pesar de existir términos más específicos en el vocabulario.
Los errores 1 y 2, aunque distintos, en la práctica son imposibles de distinguir. El VC (Vocabulario Controlado) no interviene directamente en ellos. Se deben a la falta de conocimiento en la materia o a una falta de atención. Sin embargo, el vocabulario puede ayudar a minimizarlos. Una definición cuidadosa de los términos y referencias cruzadas, posiblemente reduzcan el problema de la asignación errónea de términos. Esto es especialmente cierto si se distinguen bien los descriptores con notas de aplicación.
Los errores de tipo 3, relativos a la asignación incorrecta de términos, son relativamente raros. Es más frecuente la omisión completa, por parte del indizador, de un aspecto importante.
La falta de especificidad en el vocabulario (punto 4) supone la inexistencia en el sistema de términos específicos para describir algunos conceptos precisos, forzando al indizador a utilizar un término más genérico. Esta falta probablemente será una causa importante de fallos en la precisión de todos los sistemas de recuperación.
La falta de especificidad en la indización (punto 5) es otra cuestión. En este caso, en el vocabulario existe un término específico apropiado, pero el indizador, por alguna razón, utiliza un término más genérico.
Vocabulario Controlado en la Búsqueda
El vocabulario tiene funciones indicativas y preceptivas en el proceso de búsqueda. Establece el lenguaje que el usuario debe utilizar, dirigiéndole desde los términos no aceptados a los aceptados. El peso de esta función recae sobre el vocabulario de entrada. Esta función preceptiva posibilita que el vocabulario del usuario y del indizador coincidan.
La función indicativa en la búsqueda recae en la organización del vocabulario: su estructura de facetas, su jerarquía y su red de referencias cruzadas. Su finalidad es la de ayudar al usuario a construir la mejor estrategia posible, en relación a las necesidades de información (alta precisión y exhaustividad en la recuperación, o un nivel aceptable de ambas).
Vocabulario Controlado versus Lenguaje Natural
Los sistemas con lenguaje natural ofrecen una ventaja sobre los que utilizan un lenguaje controlado. El uso de un vocabulario ilimitado permite una gran especificidad en la recuperación. Es más probable que un sistema en lenguaje natural dé mejores resultados en comparación con el controlado, cuanto más específica tenga que ser la información.
Los vocabularios controlados también tienen sus ventajas. Un VC tiene tres funciones fundamentales: tiende a reducir las ambigüedades semánticas, a mejorar la consistencia en la representación de la materia, y a facilitar la realización de búsquedas amplias. La primera función se consigue diferenciando los distintos significados de los homógrafos, la segunda mediante el control de los sinónimos y cuasisinónimos, y la tercera estableciendo una estructura que una los términos relacionados semánticamente.
- El problema de los homógrafos es el más simple: es más teórico que real. Normalmente los homógrafos sólo producen ambigüedad cuando están aislados; pero en la recuperación raramente se utilizan palabras aisladas.
- Para el tratamiento de la sinonimia en un sistema con lenguaje natural, tenemos que utilizar la estrategia de búsqueda para conseguir lo que en un sistema con lenguaje controlado ya está establecido previamente.
- La tercera función del VC, y probablemente más importante, es la de facilitar la realización de búsquedas amplias.
Sinonimia
Las palabras o frases exactamente equivalentes no son usuales. En recuperación de la información se trabaja más con cuasisinónimos que con verdaderos sinónimos.
La actualización también incluirá la eliminación de algunos términos, aunque el ritmo de eliminación no será igual al de incorporación. Un término puede ser eliminado y sustituido por un sinónimo o cuasisinónimo. Esto reflejará un cambio en la terminología aceptada en el campo temático. También puede ocurrir que se elimine un término y se haga un envío use a otro término más genérico.
La decisión de eliminar un término específico suele deberse a que no ha sido muy utilizado en la indización, pero no conviene que desaparezca. Las estadísticas de utilización de términos en la indización son indicadores útiles para la actualización del vocabulario, y por eso se hacen periódicamente. Sin embargo, incomprensiblemente, las estadísticas de utilización de términos de la búsqueda son menos frecuentes; cuando, en cierto modo, son más importantes. No tiene sentido la utilización de un término en la indización, si nunca se ha utilizado en la recuperación.
Un vocabulario controlado debe poder responder a los diferentes tipos de peticiones que se hagan al sistema de recuperación. Los usuarios deben hacer sus peticiones iniciales con términos del lenguaje natural y no con los del vocabulario, y estas peticiones deben ser registradas y analizadas para utilizarlas en la actualización del vocabulario. No es conveniente que el usuario realice su petición inicial con términos del lenguaje controlado porque estará limitada por la terminología del sistema: es decir, no preguntará por lo que él quiere, sino por lo que piensa que el sistema puede ofrecerle, cosa que puede estar bastante lejos de sus necesidades reales de información. Además, si los usuarios siempre expresan sus peticiones con la terminología del sistema, no podrán conocerse los fallos debidos a la falta de especificidad del vocabulario.