La coherencia entre los principios del conocimiento, los instrumentos del conocimiento y el resultado de conocimiento del proceso de conocimiento
Introducción AL PROCESAMIENTO DE LENGUAJE NATURAL. OBJETIVOS
-Mostrar ideas generales sobre el área de Procesamiento del Lenguaje Natural -Indicar las principales dificultades -Campos de aplicación- Mostrar, a modo de introducción, el área de la extracción de información.
Tareas. Análisis morfológico
El análisis de las palabras para extraer raíces, rasgos flexivos, unidades léxicas compuestas y otros fenómenos.
Análisis sintáctico
El análisis de la estructura sintáctica de la frase mediante una gramática de la lengua en cuestión.
Análisis semántico
La extracción del significado de la frase, y la resolución de ambigüedades léxicas y estructurales.
Análisis pragmático
El análisis del texto mas allá de los limites de la frase, por ejemplo, para determinar los antecedentes referenciales de los pronombres.
Planificación de la frase
Para generar texto, la decisión de como estructurar cada frase con el fin de expresar el significado adecuado.
Generación de la frase
La generación de la cadena lineal de palabras a partir de la estructura general de la frase, con sus correspondientes flexiones, concordancias, y restantes fenómenos sintácticos y morfológicos.
PARADIGMAS. -Modelos gramaticales. Sistemas de reglas. –
1950: Propuesta del test de Turing -1954: El experimento de Georgetown. Traducción automática de frases del ruso al inglés. Se predice que en pocos años el problema estará resuelto. 1966: Informe ALPAC (Automatic Language Processing Advisory Committee) encuentra que la investigación a largo de los ´últimos diez años no había cumplido las expectativas. Baja la financiación en este ´área. –
Aprendizaje automático. —
Hasta la década de 1980, la mayoría de los sistemas de PLN se basa en un complejo conjunto de reglas escritas a mano. –A partir de finales de 1980, sin embargo, hubo una revolución en PLN con la introducción de algoritmos de aprendizaje automático para el procesamiento del lenguaje. –Motivos: –Computadores cada vez más potentes –Pérdida de peso de las teorías de Chomsky (teorías basadas en gran ática)-
Los sistemas basados en estas técnicas predominan pero necesitan de la creación de corpus de textos marcados manualmente lo que supone una cierta limitación.-
La investigación reciente se ha centrado cada vez más en los algoritmos de aprendizaje no supervisado y semi-supervisados.
Extracción DE Información
La extracción de la información es un tipo de recuperación de la información cuyo objetivo es extraer automáticamente información estructurada o semiestructurada desde documentos legibles por una computadora. -Una aplicación típica de IE es el escaneado de una serie de documentos escritos en una lengua natural y rellenar una base de datos con la información extra ‘ida. -Las tendencias actuales en relación con la IE utilizan técnicas de procesamiento de lenguaje natural que se centran en dominios muy restringidas.
Tareas. Reconocimiento de nombres de entidades
Busca localizar y clasificar elementos atómicos en texto sobre categorías predefinidas como nombres de personas, organizaciones, lugares, expresiones de horas, cantidades, valores monetarios, porcentajes, etc.
Resolución de la correferencia
Identifica distintos sintagmas nominales que se refieren al mismo objeto. La anáfora es un tipo de correferencialidad
. Extracción de relaciones
Requiere la detección y clasificación de las menciones a relaciones semánticas entre entidades detectadas así como las carácterísticas de tales relaciones.
Extracción DE Información TEMA2. Definición
Los sistemas de recuperación de información se usan para obtener los documentos relevantes respecto a un tema dentro de un volumen muy grande de textos OBJETIVO.–
El objetivo de un sistema de extracción de información (EI) es obtener información acerca de hechos muy específicos (como fechas, nombre propios, eventos, relaciones entre eventos y entidades) a partir de un texto en lenguaje natural sobre un dominio de interés. – La información obtenida como output puede ser mostrada directamente a los usuarios. – identificar cierta información. – A veces es necesario usar un sistema de extracción de información para encontrar los hechos específicos de interés sin necesidad de leer cada texto. – Las tareas de la extracción de información se caracterizan (actualmente) por las siguientes dos propiedades importantes:– El nivel de conocimiento requerido se describe mediante plantillas relativamente simples (guiones o descripción de situaciones estereotipadas), con huecos o espacios (slots) que se llenan con material del texto –Solo una pequeña parte del texto es relevante para llenar los espacios de la plantilla, el resto puede ignorarse. – La tarea de extracción de información es compleja y no se han resuelto todos los problemas que involucra.
TAREAS DE LA Extracción DE Información. EL Estándar MUC
Se han creado varios proyectos orientados a estimular el desarrollo de nuevos sistemas de extracción de información y a crear un estándar para evaluar su desempeño. Los dos más importantes son el proyecto Message Understanding Conference (MUC6) y su sucesor Automatic Content Extraction (ACE7). La conferencia MUC tuvo lugar cada dos años durante el periodo 1987–1998, El proyecto ACE está vigente desde finales de los noventa. A pesar de ser continuación del MUC, dejó de hacer públicos los resultados de las evaluaciones. Por esa razón, su utilidad para los no participantes es mucho menor que la de MUC (Cunningham, 2005).
TAREAS: RECONOCIMIENTO DE NOMBRES
En esta tarea se identifican los nombres propios (entidades, en la terminología del PLN) y se clasifican. Es decir, no solo hay que reconocer si una palabra es un nombre propio, sino que hay que identificar si ese nombre propio se refiere a una persona, a un lugar, a una organización, etc.
Construcción DE PLANTILLA DE ELEMENTOS
En esta tarea, a cada entidad se le asocia un conjunto de atributos que la describen, es decir, añade a las entidades información descriptiva que es resultado del módulo de resolución de correferencia. Tal asociación, lo mismo que la definición de los atributos descriptores, es dependiente del dominio.
Construcción DE PLANTILLA DE RELACIONES. El objetivo de esta tarea es encontrar las relaciones entre las plantillas de elementos obtenidas en la tarea anterior. Aquí también las relaciones son dependientes del dominio; por ejemplo, las personas y empresas pueden relacionarse mediante la relación empleado de las empresas y lugares se podrían relacionar mediante la relación localizada en.
Construcción DE PLANTILLA DE ESCENARIO
La plantilla de escenario es el resultado típico de un sistema de extracción de información. Esta tarea se encarga de relacionar las plantillas de elementos con los eventos de interés, por ejemplo, se puede relacionar a dos organizaciones A y B por medio del evento creación de empresa conjunta.
PUNTO. Construcción DE REGLAS
Los dos enfoques básicos para la construcción de estas reglas o gran áticas de extracción son: el enfoque de ingeniería del conocimiento y el enfoque de métodos empíricos (sistemas entrenados automáticamente): Aprendizaje. En el enfoque de ingeniería del conocimiento, lingüistas expertos analizan un corpus y construyen gran áticas a partir de ´el. El corpus consiste en un conjunto de textos representativos del dominio específico para el que se diseñara el sistema de EI. Las gramáticas se extraen de ese corpus descubriendo en ´el patrones estructurales. En los sistemas entrenados automáticamente se utilizan, en cambio, métodos estadísticos y algoritmos de aprendizaje que puedan generar reglas a partir de un corpus anotado manualmente y legible para un sistema PLN. El corpus anotado se crea exprofeso, o bien puede usarse uno de los ya existentes creados por grupos de investigación.
FASES DE UNA APLICACIÓN DE EI: ENTRAMIENTO Y DESPLIEGUE
La aplicación de un sistema de EI normalmente tiene dos fases: una fase de entrenamiento y una fase de utilización (o de evaluación si no es una aplicación real). En la fase de entrenamiento, sea ´este automático o manual, el primer paso es elegir un corpus que sea representativo del dominio. En el caso de que el aprendizaje sea automático, el corpus de entrenamiento necesita etiquetarse para indicar que elementos en los textos son relevantes para la tarea de extracción y el módulo de aprendizaje utilizar ‘a estas anotaciones en la fase de aprendizaje para inducir la gramática de extracción a partir del corpus. Antes de que los textos puedan ser utilizados para extrapolar las reglas de extracción hacia el dominio, los textos del corpus suelen someterse a una etapa de pre procesamiento: se les enriquece con metainformaci´on lingüística que ayudara en la fase de adquisición de reglas. Para este fin pueden utilizarse una serie de herramientas de procesamiento de lenguaje natural. Una vez que el corpus es pre procesado, pasa al módulo de entrenamiento. -En el enfoque manual (basado en la ingeniería del conocimiento) el corpus pre procesado se tomara como base para construir una gramática por un equipo de lingüistas especializados en este campo. -En el enfoque automático, en cambio, se utilizara un algoritmo de aprendizaje que utiliza toda la metainformaci´on lingüística para aprender las reglas de extracción. En la fase de despliegue, el sistema de EI identificara y clasificara la información pertinente en textos nuevos, es decir, textos que no fueron incluidos en el corpus de entrenamiento. El componente de preprocesamiento en la fase de despliegue, debe ser lo más similar posible al de la fase de aprendizaje. Una vez que los textos se preprocesan, ´estos pasan a la fase de extracción la cual utiliza la gramática que se aprendíó en la etapa de aprendizaje: el resultado será la plantilla con la información extraída.