|
|
Instituto Politécnico Nacional
|
|
Análisis sintáctico
conducido por un diccionario
de patrones de manejo sintáctico
para lenguaje español
Tesis doctoral
Presenta: M. en C. Sofía Natalia Galicia Haro
Director de tesis:
Dr. Alexander Gelbukh
Codirector: Dr. Igor Bolshakov
México, D.F.
Agosto 2000
Capítulo 2. Compilación del diccionario de verbos españoles con sus estructuras de valencias
Capítulo 3. Análisis sintáctico y desambiguación basada en patrones de manejo avanzados
Capítulo 4. Colección de estadísticas de las combinaciones de subcategorización como método práctico
Lista de publicaciones de la tesista sobre el tema de tesis
Tabla detallada de contenido
Lenguaje natural y lingüística teórica
Peculiaridades sintácticas del español
Ambigüedades en lenguaje natural
Aplicación del modelo de dependencias al español
Algoritmo de adquisición de patrones de manejo
Compilación del diccionario de patrones de manejo
Algoritmo de desambiguación sintáctica
1.1 Gramáticas generativas y la tradición estructuralista europea
Gramática generativa en su primera etapa
Los sucesores y la paliación de los defectos del modelo transformacional
De las reglas a las restricciones
Métodos sin estructura sintáctica
Convergencia de los dos enfoques
1.2 Valencias sintácticas: enfoques diversos
Valencias Sintácticas en la MTT
Métodos lexicográficos tradicionales de compilación de diccionarios
Revisión de los enfoques diversos para la descripción de valencias sintácticas
1.3 Métodos estadísticos: una herramienta para búsqueda de regularidades
Distribución de rangos de frecuencias
Predicción estadística de secuencias aleatorias de palabras
Capítulo 2. Compilación del diccionario de verbos españoles con sus estructuras de valencias
2.1 Diversidad numérica de valencias
2.2 Ejemplos de patrones de manejo para verbos.
2.3 Ejemplos de patrones de manejo para sustantivos y adjetivos
2.4 Dependencia del objeto directo en la animidad, como una peculiaridad del español
2.5 Otra definición de la noción de animidad y su uso
2.6 Repetición limitada de los objetos como otra peculiaridad del español.
2.7 El complemento beneficiario en el español y su duplicación
2.8 Otras complejidades de la representación de valencias
Estado incompleto en el nivel sintáctico
Correspondencia desigual entre valencias sintácticas y semánticas
Mapeo de valencias semánticas a sintácticas
2.9 Ejemplos de complicaciones de patrones de manejo para verbos del español
2.10 Métodos tradicionales para caracterizar formalmente las valencias
2.11 Los patrones de manejo avanzados, como un método alternativo
Capítulo 3. Análisis sintáctico y desambiguación basada en patrones de manejo avanzados
3.1 Antecedentes del sistema propuesto
Idea de combinación de métodos
3.2 Estructura general del analizador
3.3 Creación de la gramática generativa experimental
Desarrollo y ampliación de cobertura de la gramática
Verificación preliminar de la gramática
3.4 Compendio de reglas gramaticales
Signos convencionales de la gramática
3.5 Algoritmo de transformación de árboles de constituyentes a árboles de dependencias
Algoritmo básico de transformación
3.6 Consideración de las reglas ponderadas
3.7 Consideración de la proximidad semántica
3.8 Análisis sintáctico en su versión última
Ejemplos de evaluación cuantitativa
Características de votación del analizador sintáctico
Capítulo 4. Colección de estadísticas de las combinaciones de subcategorización como método práctico
4.2 Información sintáctica para los PMA
Trabajos relacionados: Enlace de frases preposicionales
Trabajos relacionados: Obtención de marcos de subcategorización
4.3 Bases del método de obtención y evaluación de estadísticas de opciones de análisis sintáctico
4.4 Conversión del método en su aplicación a textos modelados
4.5 Conversión del método en su aplicación a textos reales
Pesos de las combinaciones y su uso
4.6 Ejemplos de verbos con combinaciones compiladas automáticamente
4.7 Sinopsis de estadísticas obtenidas y comparación de textos modelados y reales
4.9 Algunas conclusiones a favor de la automatización
4.11 Resultados de la aplicación de los pesos de combinaciones en el analizador básico
Rumbos de investigación posteriores
Lista de publicaciones de la tesista sobre el tema de tesis
Capítulos en libros de memorias de Springer
Capítulos en libros de Selected Papers
Figura 1. Estructuras sintácticas
Figura 3. Organización de la GB
Figura 4. Fragmento de cláusula relativa
Figura 5. Estructura para el pronombre she
Figura 6. Estructura de características mediante MAV
Figura 7. Estructura de características mediante MAV
Figura 8. Niveles de Representación en la MTT
Figura 9. Ejemplo de estructura de dependencias en la MTT
Figura 10. Relación indirecta entre sujeto y verbo
Figura 11. Relación indirecta entre sujeto y verbo
Figura 12. Descripción del verbo force
Figura 13. Ejemplo de una representación sintáctica superficial.
Figura 14 Red semántica para la frase Juan bebe bebidas alcohólicas con sus amigos.
Figura 15 Patrones de manejo avanzados
Figura 16.Estructura formal para el verbo acusar
Figura 17. Estructura del analizador con resolución de ambigüedad
Figura 18 Algoritmo de transformación de un árbol de constituyentes a uno de dependencias
Figura 21. Representaciones de árbol y de tabla para el grupo nominal El niño pequeño.
Figura 22. Algoritmo de análisis sintáctico ascendente de tabla.
Figura 23. Diferentes longitudes en los enlaces de la jerarquía.
Figura 24 Red semántica para la frase, Juan ve un gato con un telescopio
Figura 25 Ambigüedad sintáctica.
Figura 26. Modelo de análisis sintáctico y desambiguación
Figura 27 Multievaluación del modelo de multigeneración sintáctica.
Figura 29 Modelo de dos fuentes de generación
Figura 30 Algoritmo para calcular los pesos de combinaciones
Figura 32. Esquema de prueba del algoritmo
Figura 33. Una entrada del diccionario simulado.
Figura 34. El procedimiento iterativo con corpus de textos.
Figura 35. Estructura final formal de los PMA
Figura 36. PMA para el verbo acusar1
El lenguaje se considera como un mecanismo que nos permite hablar y entender. Los lenguajes naturales[1], es decir, el inglés, el francés, el español, etc. son una herramienta genuina para la comunicación entre los seres humanos, ya sea en forma oral o escrita.
Actualmente, el avance tecnológico en los medios de comunicación impresos y electrónicos nos permite obtener grandes volúmenes de información en forma escrita. La mayoría de esta información se presenta en forma de textos en lenguajes naturales. Toda esa información contenida en los textos es muy importante ya que permite analizar, comparar, entender el entorno en el que vive el ser humano.
Sin embargo, se presentan dificultades por la imposibilidad humana de manejar esa enorme cantidad de textos. Entre las herramientas que ayudan en las tareas diarias, la computadora es, hoy en día, una herramienta indispensable para el procesamiento de grandes volúmenes de datos. Pero todavía no se logra que una máquina al capturar una colección de textos los comprenda suficientemente bien; por ejemplo, para que pueda aconsejar qué hacer en determinado momento basándose en toda la información proporcionada, para que pueda responder a preguntas acerca de los temas contenidos en esa información pero no explícitamente descritos, o para que pueda elaborar un resumen de la información.
Para lograr esta enorme tarea de procesamiento de lenguaje natural por computadora, analizando oración por oración para obtener el sentido de los textos, es necesario conocer las reglas y los principios bajo los cuales funciona el lenguaje, a fin de reproducirlos y adecuarlos a la computadora, incluyendo posteriormente el procesamiento de lenguaje natural en el proceso general del conocimiento y el razonamiento.
El estudio del lenguaje, está relacionado con diversas disciplinas. De entre ellas, la Lingüística General es el estudio teórico que se ocupa de los métodos de investigación y de las cuestiones comunes a las diversas lenguas. Esta disciplina a su vez comprende una multitud de aspectos (temporales, metodológicos, sociales, culturales, de aprendizaje, etc.). Los aspectos metodológicos y de aplicación brindan los principios y las reglas necesarios en el procesamiento de textos.
Los principios y las reglas de la lingüística general, aunados a los métodos de la computación forman la Lingüística Computacional. Esta es la área dentro de la cuál se han desarrollado y discutido muchos formalismos adecuados para la computadora a fin de reproducir el funcionamiento del lenguaje con la finalidad de extraer sentido a partir de textos y viceversa, transformando los conceptos de sentidos específicos a los correspondientes textos correctos.
El proceso que se realiza con las herramientas proporcionadas por la Lingüística Computacional para realizar las tareas necesarias para pasar del texto a la estructura conceptual, y de ésta a los textos, lo denominamos, de aquí en adelante, proceso lingüístico de textos.
El proceso lingüístico considera análisis y síntesis de textos, es decir, comprensión y generación de oraciones en lenguaje natural. Tanto en la generación como en la comprensión se realizan diferentes transformaciones o cambios de una estructura a otra para llegar al objetivo correspondiente, obtener los conceptos del texto o crear textos, respectivamente.
La generación de texto dentro de este ámbito empieza con la conceptualización del mensaje que se transmitirá y con la definición del nivel de generalización o de detalle en que se realizará. A continuación se sigue con la planeación de las estructuras. Los problemas específicos para construir estas estructuras están relacionados con las elecciones para representar un sentido específico, y con las elecciones de las estructuras particulares que se enlazan a las palabras. Existen otros criterios que intervienen en la construcción de la estructura, que no se consideran en el nivel de oración sino en el nivel del discurso completo, como la coherencia, expuesta mediante enlaces entre oraciones.
La comprensión en el proceso lingüístico, más compleja que la generación, parte de la representación de la información textual, es decir, de la cadena de palabras, y la traduce a diversas estructuras lingüísticas en varias etapas.
Las transformaciones que se requieren en el análisis y la síntesis son tan complejas que se dividen, tanto en la teoría como en la aplicación, en etapas generales. Para que la computadora realice estas etapas se requieren métodos adecuados para la descripción y construcción de las estructuras correspondientes, es decir, se requieren formalismos lingüísticos de representación y computacionales.
En la lingüística general se considera que tres niveles generales componen el procesamiento lingüístico: la morfología, la sintaxis y la semántica. En el procesamiento lingüístico de textos, entre estos niveles, se elaboran descripciones y transformaciones computacionales de estructuras, al menos en dos etapas, en la primera a una estructura sintáctica y en la segunda a la estructura conceptual. Estos niveles no están totalmente delimitados, investigadores diversos difieren un poco en los puntos de vista para esta delimitación pero las diferencias no son cruciales.
Cada uno de los niveles, tanto en la generación como en la comprensión, tiene sus propias reglas y requiere colecciones de datos (diccionarios) apropiadas, aunque ciertas tareas pueden compartir recursos en el análisis y en la síntesis de textos. De hecho, en la construcción de recursos para el procesamiento lingüístico de textos un concepto importante es compartir recursos, dados los grandes esfuerzos que normalmente se requieren para su compilación.
Nuestra investigación se centra en el análisis y en el nivel sintáctico. Por lo que los niveles morfológico y semántico se consideran como los niveles adyacentes, cada uno apoyado en sus propias características. La sintaxis tiene estrechas relaciones con ambos niveles. En el nivel morfológico, las características que están relacionadas con el nivel sintáctico son las categorías gramaticales (las partes del habla y sus subclases), y algunas características morfológicas.
Las partes del habla (part of speech en inglés, POS) son: sustantivo, verbo, artículo, etc. En el análisis se realiza un marcaje de POS cuando se asignan estas categorías gramaticales a cada palabra dada, es decir, cuando se indica la función de cada palabra en el contexto específico de la oración. Este marcaje se hace considerando características morfológicas y sintácticas del lenguaje.
Las características morfológicas relacionadas con la sintaxis son las combinaciones que pueden caracterizar paradigmas. Los paradigmas aquí se refieren a los grupos de palabras relacionadas por su semejanza de significantes (la mínima forma significativa en la palabra) o por alguna relación entre sus significados (idea contenida en el significante). Entre las características morfológicas que caracterizan paradigmas están las formas de conjugación de los verbos (amo, amas, ama, aman, etc.), las variantes que expresan género y número de sustantivos, etc. Por ejemplo, la palabra comen, donde la inflexión en describe tiempo presente, modo indicativo, tercera persona del plural. Estas características se utilizan para relacionar palabras, frases u oraciones entre sí, es decir, para la coordinación; por ejemplo, del verbo con el sujeto (ellos comen), del sustantivo con el adjetivo (casa roja), etc.
Otra característica morfológica con repercusiones sintácticas y semánticas es la relacionada a las formas homónimas. Existen diferentes palabras morfológicas, como banco, bancos, que son variantes de un mismo lexema (la parte constante de una palabra variable que expresa la idea principal contenida) y existen formas homónimas de un lexema, con diferente sentido, que conforman un vocablo común. Estas formas homónimas se numeran para describir sus sentidos. De esta forma, por ejemplo, se tiene banco1 y banco2, mientras el primero se refiere al sentido relacionado a guardar algo (banco de ojos, banco comercial), el segundo se refiere al sentido de asiento para una sola persona.
Formas homónimas como: querer1 tener el deseo de obtener algo, y querer2 amar o estimar a alguien, se distinguen por sus construcciones sintácticas, como se verá más adelante.
La tarea principal en este nivel es describir cómo las palabras de la oración se relacionan y cuál es la función que cada palabra realiza en esa oración, es decir, construir la estructura de la oración de un lenguaje.
Las normas o reglas para construir las oraciones se definen para los seres humanos en una forma prescriptiva, indicando las formas de las frases correctas y condenando las formas desviadas, es decir, indicando cuáles se prefieren en el lenguaje. En contraste, en el procesamiento lingüístico de textos, las reglas deben ser descriptivas, estableciendo métodos que definan las frases posibles e imposibles del lenguaje específico de que se trate.
Las frases posibles son secuencias gramaticales, es decir, que obedecen leyes gramaticales, sin conocimiento del mundo, y las no gramaticales deben postergarse a niveles que consideren la noción de contexto, en un sentido amplio, y el razonamiento. Establecer métodos que determinen únicamente las secuencias gramaticales en el procesamiento lingüístico de textos ha sido el objetivo de los formalismos gramaticales en la Lingüística Computacional. En ella se han considerado dos enfoques para describir formalmente la gramaticalidad de las oraciones: las dependencias y los constituyentes.
Los constituyentes y la suposición de la estructura de frase, sugerida por Leonard Bloomfield en 1933, es el enfoque donde las oraciones se analizan mediante un proceso de segmentación y clasificación. Se segmenta la oración en sus partes constituyentes, se clasifican estas partes como categorías gramaticales, después se repite el proceso para cada parte dividiéndola en subconstituyentes, y así sucesivamente hasta que las partes sean las partes de la palabra indivisibles dentro de la gramática (morfemas).
La suposición de frase y la noción de constituyente, se aplica de la siguiente forma. La frase los niños pequeños estudian pocas horas se divide en el grupo nominal los niños pequeños más el grupo verbal estudian pocas horas, este último a su vez, se divide en el verbo estudian más el grupo nominal pocas horas y así sucesivamente.
En la perspectiva de constituyentes, la línea más importante de trabajo es la desarrollada por el eminente matemático y lingüística Noam Chomsky, desde los años cincuenta. [Chomsky, 57] dice que lo que nosotros sabemos, cuando conocemos un lenguaje, es un conjunto de palabras y reglas con las cuáles generamos cadenas de esas palabras.
Bajo este enfoque, aunque existe un número finito de palabras en el lenguaje, es posible generar un número infinito de oraciones mediante esas reglas, que también se emplean para la comprensión del lenguaje. Como una subclase, muy importante, de las gramáticas formales, estas reglas definen gramáticas independientes del contexto (Context Free Grammars en inglés, CFG). Sin embargo, existen al menos dos cuestiones principales cuando se trata de la cobertura amplia de un lenguaje natural: el número de reglas y la definición concreta de ellas.
El número requerido de reglas para analizar las oraciones de un lenguaje natural no tiene límite predeterminado porque debe haber tantas reglas como sean requeridas para expresar todas las variantes posibles de las secuencias de palabras que los hablantes nativos pueden realizar. En cuanto a la definición, se generan mucho más secuencias de palabras de las que realmente quieren producirse. Por ejemplo, una regla para definir grupos nominales en el español es: un artículo indefinido, seguido de un sustantivo y a continuación un grupo preposicional. Sin embargo, esta regla define tanto la plática sobre la libre empresa como *la solidaridad sobre la libre empresa[2]siendo ésta última una secuencia no gramatical.
En este enfoque, una información importante para el análisis sintáctico es la definida como subcategorización, referida a los complementos que una palabra rectora puede tener y la categoría gramatical de ellos. Los complementos, en la lingüística general, se definen como palabras, o grupos de elementos lingüísticos que funcionan como una unidad que completa el significado de uno o de varios componentes de la oración, e incluso de la oración entera. Esta información se ha agrupado en patrones que describen la composición de los complementos posibles para diferentes verbos, conocida como marcos de subcategorización.
Principalmente se considera que los verbos son las palabras del lenguaje que requieren estos marcos de subcategorización, los cuales pueden ser de diferentes tipos, simples como grupos nominales, o más complejos como por ejemplo, el verbo dar que subcategoriza un grupo nominal y un grupo preposicional, en ese orden, Da un libro a María. También se considera que la descripción de los complementos puede realizarse en términos sintácticos o en términos semánticos.
En términos sintácticos, se describen por su estructura y partes del habla. Por ejemplo: en diez pesos es un grupo preposicional compuesto de preposición, adjetivo numeral y sustantivo, en una tienda también es un grupo preposicional pero compuesto de una preposición, un artículo y un sustantivo. En este caso, como tanto adjetivo numeral seguido de sustantivo y artículo seguido de sustantivo forman un grupo nominal, el mismo marco: preposición seguida de grupo nominal, describe ambos complementos.
La descripción en términos semánticos, por no estar considerada en una forma ligada a la descripción sintáctica, en este enfoque, se ha complementado con los papeles temáticos. Estos papeles temáticos tienen su antecedente en los casos, que son relaciones abstractas semánticas entre los verbos y sus argumentos, establecida en la Gramática de Casos [Fillmore, 77]. Intentan explicar las diferencias en las distintas estructuras para un verbo, por ejemplo: Juan rompió la ventana con el martillo, El martillo rompió la ventana, La ventana se rompió. Con los papeles temáticos se establece que Juan, el martillo y la ventana, hacen el papel de agente, y el martillo en la primera frase es una herramienta.
Las combinaciones de los distintos complementos en la oración presentan otra complejidad. Por ejemplo, en la frase Compró el niño un libro en diez pesos en la tienda XX a un lado del metro Juárez a un vendedor alto de mal humor, existen seis grupos preposicionales (en la tienda, del metro Juárez, etc.) introducidos con solo tres preposiciones, a, en, de, y aparecen dos grupos nominales (el niño, un libro). Las posibles combinaciones no son aleatorias pero estos complementos o grupos lingüísticos pueden ir enlazados en diferentes combinaciones, unidos al verbo o a algunos sustantivos de los diferentes grupos de la oración, por ejemplo: Compró el niño, Compró un libro, Compró en diez pesos, Compró en la tienda XX, Compró a un vendedor alto, la tienda XX a un lado del metro Juárez.
Mientras para un hablante nativo es obvio cómo se relacionan los complementos, para una computadora son posibles todas las variantes: Compró a un lado, Compró del metro Juárez, Compró de mal humor, el niño en la tienda XX, etc.
El primer intento real para construir una teoría que describiera las gramáticas de dependencias fue el trabajo de Lucien Tesnière en 1959. Las dependencias se establecen entre pares de palabras, donde una es principal o rectora y la otra está subordinada a (o dependiente de) la primera. Si cada palabra de la oración tiene una palabra propia rectora, la oración entera se ve como una estructura jerárquica de diferentes niveles, como un árbol de dependencias. La única palabra que no está subordinada a otra es la raíz del árbol.
Es importante notar que la motivación de muchas dependencias sintácticas es el sentido de las palabras. Por ejemplo en la frase Los niños pequeños estudian pocas horas, las palabras pequeños y pocas son modificadores de atributo de las palabras niños y horas respectivamente, y niños es el sujeto de estudiar. Un rasgo muy importante de las dependencias es que no son iguales: una sirve para modificar el significado de la otra, así la secuencia los niños pequeños denota ciertos niños, y estudian pocas horas denota una clase de estudio.
En el enfoque de dependencias, la línea de trabajo más importante es la desarrollada por el investigador Igor Mel’cuk desde los años sesenta, la Meaning Û Text Theory (MTT). Para [Mel’cuk, 79], en la sintaxis se describen los medios lingüísticos por los cuales se expresan todos los participantes que están implicados en el sentido mismo de los lexemas.
Bajo esta perspectiva, la descripción de conocimiento lingüístico es primordial. La descripción de los medios lingüísticos con los que se expresan los “objetos” del lexema se insertan junto con él en un diccionario, de esta forma se conoce de antemano cómo se relaciona el lexema con los distintos grupos de palabras en la oración. Por ejemplo, para el lexema plática aparecerá que utiliza la preposición sobre para introducir el tema, que solidaridad utiliza la preposición con, y que el verbo dar emplea un sustantivo para expresar el objeto donado y para introducir el receptor emplea la preposición a. Estas descripciones se denominan patrones de manejo.[3]
Una cuestión principal cuando se trata de la cobertura amplia de un lenguaje natural, empleando los patrones de manejo, se refiere al establecimiento de todo este conocimiento lingüístico que no se basa en lógica y que por lo tanto conlleva el enorme trabajo manual de la descripción de la colección completa de todos los posibles objetos de las palabras específicas (verbos, sustantivos o adjetivos). Por ejemplo, establecer la manera en que el lexema comprar expresa los participantes, en la acción de hacer que alguna cosa pase de una persona o entidad, a ser propiedad de otra persona o entidad, a cambio de una cantidad de dinero.
Con la sola descripción sintáctica de los complementos no hay una manera de establecer reglas para la computadora que definan las preposiciones específicas de cada verbo, por ejemplo la preposición en para el verbo comprar y no un grupo preposicional introducido por la preposición sobre. Y aún cuando se especificara particularmente para el verbo comprar que un complemento se introduce con la preposición en, se tiene que diferenciar entre grupos preposicionales como en diez pesos que expresa la cantidad de dinero y otros grupos preposicionales que expresan otros sentidos como en una tienda. Esta diferencia que implica un descriptor semántico está contemplada en la MTT.
En la MTT se relacionan los participantes semánticos con los complementos del verbo, es decir, la valencia semántica con la valencia sintáctica. Por ejemplo, la realización sintáctica en diez pesos se refiere a la cantidad de dinero por la cuál se compró algo si está relacionado con comprar o se trata de la cantidad en la cuál disminuye un precio si se trata de reducir, etc. En la MTT, la idea es establecer las valencias, es decir, los participantes referidos a la acción del verbo en cuestión, establecer quién realiza la acción, a quién está dirigida, qué se hace, etc. Por ejemplo, en la acción de beber, los participantes son quién bebe y qué bebe; en la acción comprar los participantes son: quién compra, qué compra, en cuanto lo compra, a quién se lo compra.
En este enfoque, también se considera necesario establecer la diferencia de los complementos seleccionados semánticamente, de los que expresan las circunstancias en las que se da la acción, que se denominan circunstanciales. Los complementos circunstanciales están relacionados al contexto local de la oración pero no expresan participantes en la acción del verbo, añaden información no relacionada directamente al sentido del lexema. Por ejemplo, en la frase, compró contra su voluntad un traje nuevo, el grupo preposicional contra su voluntad expresa un modificador a la acción comprar, pero no es un participante de la acción del verbo.
Existen características dependientes del lenguaje que simplifican o vuelven más compleja la relación entre los grupos de palabras. Reconocer las combinaciones posibles de los verbos y sus complementos es menos complejo cuando en el lenguaje existen posiciones fijas de ocurrencia de ellos. Sin embargo esto varía, la estructura de la oración en diferentes lenguajes tiene diversos órdenes básicos y diferentes grados de libertad en el orden de palabras. Por ejemplo, el inglés y el español tienen un orden básico sujeto-verbo-complemento (SVC).
Esto no quiere decir que siempre se cumpla ese orden. Algunos lenguajes, como el inglés, tienen un orden más estricto, otros, como el español, tienen un grado de libertad mayor. Por ejemplo, la oración en español Juan vino a mi casa (SVC) se acepta sintácticamente en las siguientes variantes: A mi casa vino Juan (CVS), Vino Juan a mi casa (VSC), A mi casa Juan vino (CSV), Juan a mi casa vino (SCV), Vino a mi casa Juan (VCS), por lo que los participantes de las acciones pueden ocurrir en distintas posiciones respecto al verbo.
En español, al igual que en algunos otros lenguajes, el uso de las preposiciones es muy amplio. Este empleo, origina una gran cantidad de combinaciones de grupos preposicionales, pero también sirve para diferenciar, en muchos casos, la introducción de los participantes de una acción. Por ejemplo, en la frase Compró el niño un libro en diez pesos, los hablantes nativos reconocen que se utiliza la preposición en para introducir la expresión del precio del artículo comprado.
En español, el uso de preposiciones permite introducir sustantivos animados en el papel sintáctico de objeto directo, distinguir entre significados de verbos, distinguir participantes. Realmente, la preposición a entre otros usos, sirve para diferenciar el significado del complemento directo de algunos verbos, por ejemplo, querer algo (tener el deseo de obtener algo) y querer a alguien (amar o estimar a alguien). Si este conocimiento se omite en el nivel sintáctico entonces el análisis en el nivel semántico se vuelve más complejo. Esta información también es útil en la generación de lenguaje natural porque dado el sentido que se quiere transmitir existe la posibilidad de seleccionar la estructura precisa para él.
Otra peculiaridad del español es la repetición restringida de valencias. Por ejemplo en la frase: Arturo le dio la manzana a Victor, dónde le se emplea para establecer a quién le dieron la manzana y el grupo preposicional a Victor también representa al mismo participante. Otro ejemplo es: El disfraz de Arturo lo diseñó Victor, donde tanto lo como el disfraz de Arturo corresponden al objeto directo de diseñar. Esta repetición se da en forma de pronombres y sustantivos. Las implicaciones léxicas y sintácticas en cuanto a que algunos verbos presentan estas estructuras, a que se deben relacionar las dos expresiones de valencias sintácticas con la misma valencia semántica, y a posibles diferencias semánticas, competen al análisis sintáctico.
La ambigüedad, en el proceso lingüístico, se presenta cuando pueden admitirse distintas interpretaciones a partir de la representación o cuando existe confusión al tener diversas estructuras y no tener los elementos necesarios para eliminar las incorrectas. Para desambiguar, es decir, para seleccionar los significados o las estructuras, más adecuados, de un conjunto conocido de posibilidades, se requieren diversas estrategias de solución en cada caso.
Relacionada a la sintaxis, existe ambigüedad en el marcaje de partes del habla, esta ambigüedad se refiere a que una palabra puede tener varias categorías sintácticas, por ejemplo ante puede ser una preposición o un sustantivo, etc. Conocer la marca correcta para cada palabra de una oración ayudaría en la desambiguación sintáctica, sin embargo la desambiguación de este marcaje requiere a su vez cierta clase de análisis sintáctico.
En el análisis sintáctico es necesario tratar con diversas formas de ambigüedad. La ambigüedad principal ocurre cuando la información sintáctica no es suficiente para hacer una decisión de asignación de estructura. La ambigüedad existe aún para los hablantes nativos, es decir, hay diferentes lecturas para una misma frase. Por ejemplo, en la oración Javier habló con el profesor del CIC, puede pensarse en el profesor del CIC como un complemento de hablar o también puede leerse que Javier habló con el profesor sobre un tema, habló con él del CIC.
También existe ambigüedad en los complementos circunstanciales. Por ejemplo, en la frase Me gusta beber licores con mis amigos, el grupo con mis amigos es un complemento de beber y no de licores. Mientras un hablante nativo no considerará la posibilidad del complemento licores con mis amigos, para la computadora ambas posibilidades son reales.
Como mencionamos, la información léxica puede ayudar a resolver muchas ambigüedades, en otros casos la proximidad semántica puede ayudar en la desambiguación. Por ejemplo: Me gusta beber licores con menta y Me gusta beber licores con mis amigos; en ambas frases la clase semántica del sustantivo final ayuda a resolver la ambigüedad, es decir con que parte de la frase están enlazadas las frases preposicionales, con menta y con mis amigos. Ni menta ni amigos son palabras ambiguas pero amigos está más cercana semánticamente a beber que a licores y menta está más cercana a licor que a beber.
La ambigüedad es el problema más importante en el procesamiento de textos en lenguaje natural, por lo que la resolución de ambigüedades es la tarea más importante a llevar a cabo y el punto central de esta investigación. Debido a que existe ambigüedad aún para los humanos, no es una tarea de la resolución de ambigüedades lograr una única asignación de estructuras en el análisis sintáctico de textos, sino eliminar la gran cantidad de variantes que normalmente se producen. Con los resultados de esta tesis, logramos promover las variantes con mayor posibilidad de ser las correctas hacia el grupo inicial en la clasificación de las variantes sintácticas generadas para cada oración.
Esta tesis propone un modelo para resolver el problema del análisis sintáctico relacionado a la gran cantidad de variantes generadas cuando se analizan textos sin restricciones. El modelo considera un algoritmo de desambiguación basado en tres diferentes fuentes de conocimiento del lenguaje, de las cuales la fuente principal dirige el análisis mediante conocimiento lingüístico. El algoritmo de desambiguación sintáctica restringe la gran cantidad de variantes que normalmente se generan, así que la base del análisis sintáctico pasa de la tarea infinita de definir una gramática de cobertura total para el lenguaje, la forma tradicional, a la tarea principal de buscar los objetos de cada palabra.
La primera fuente de conocimiento es lingüística y se describe en una colección de patrones de manejo sintáctico que reúnen información de cómo las palabras del español especifican léxicamente sus objetos, la segunda fuente se describe en una gramática extendida independiente del contexto para el español, y la tercera fuente se basa en proximidad semántica entre palabras.
Para lograr este objetivo, primero analizamos las características del español, principalmente las que difieren de los lenguajes cuyo orden de palabras es más estricto, para describirlas bajo un enfoque generalizado de descripción de valencias, con mayor énfasis en el formalismo de la MTT. Basándonos en este análisis proponemos una forma nueva de descripción de los Patrones de manejo, la denominamos Patrones de manejo avanzados, con información cualitativa para el análisis sintáctico. Debido al conocimiento lingüístico que se requiere en dichos patrones, proponemos un método semiautomático de adquisición de esa información, a partir de un corpus de textos. Por último, proponemos un algoritmo para reducir el número de variantes posibles de análisis, es decir, de desambiguación sintáctica.
Por lo que la investigación descrita en esta tesis incluye nuevas contribuciones en los aspectos explicados en las siguientes secciones.
Los formalismos para análisis sintáctico basados en constituyentes han sido más apropiados para el inglés, principalmente por su orden de palabras más estricto. Debido al apoyo y a la cantidad de investigadores que trabajan en esta línea, se ha aplicado a muchos otros lenguajes, aún cuando no comparten la mayoría de las características del inglés.
Los modelos de dependencias que representan una continuación de las tradiciones europeas antiguas en lenguajes con un orden de palabras más libre, se han orientado más hacia un trabajo descriptivo, por lo que se han empleado muy restringidamente y en pocos lenguajes. De entre los modelos de dependencias la Meaning Û Text Theory, que representa la tradición gramatical rusa, es la teoría más desarrollada, por su sistema formal que en alcance y contenido es comparable con la escuela generativa, de constituyentes.
Al español solamente se han aplicado formalismos basados en constituyentes. Una lista de los trabajos realizados basados en dependencias se encuentra en [DG Website, 99].
La aplicación de la MTT al español permite describir algunas características del español de una manera más natural y adecuada, como el orden más libre de palabras (comparado con el inglés), el uso de palabras específicas para introducir complementos seleccionados semánticamente y también para establecer la relación entre valencias sintácticas y semánticas.
La aplicación de la MTT se ha realizado en forma limitada porque la compilación de los recursos necesarios, diccionarios principalmente, requiere un esfuerzo enorme, por la necesidad de descripción del lenguaje en términos lingüísticos en todos los niveles. Para eliminar esta desventaja elaboramos un algoritmo que emplea métodos estadísticos y lingüísticos.
Los métodos puramente lingüísticos tienen el defecto de requerir por mucho tiempo la participación de recursos humanos calificados. Los métodos estadísticos, se han empleado con buenos resultados, en diferentes líneas de investigación. Una área importante de aplicación para los métodos estadísticos es la adquisición de información léxica. Los sistemas basados solamente en métodos estadísticos no han logrado el éxito total para resolver la mayoría de los problemas de procesamiento de lenguaje natural para los cuales fueron aplicados, sin embargo han sido muy útiles, y combinados con conocimiento lingüístico han demostrado cierta superioridad.
En esta investigación se combinan métodos lingüísticos que permiten extraer estructuras sintácticas, y métodos estadísticos para la selección de variantes de estructuras con la finalidad de obtener los complementos de palabras específicas (verbos, adjetivos y sustantivos).
La compilación de un diccionario de patrones de manejo avanzados para el español permite abarcar una cobertura amplia del lenguaje porque reúne conocimiento puramente lingüístico que no es posible reproducir mediante razonamiento ni mediante algoritmos. Se han compilado muy pocos diccionarios de este tipo, principalmente porque se han compilado manualmente y porque los diccionarios desarrollados incluyen el modelo completo de la MTT.
La compilación de los patrones mediante el algoritmo lingüístico estadístico desarrollado permite incluir información estadística adicional para eliminar cierta ambigüedad en el análisis sintáctico y para favorecer determinadas realizaciones que aparecen con mayor frecuencia en corpus de textos, lo cual no ha sido considerado en compilaciones de este tipo de diccionarios.
Este diccionario es un recurso para el procesamiento del español que servirá tanto para el análisis como para la síntesis en el nivel sintáctico.
La principal contribución de este trabajo es en el avance del análisis sintáctico de textos en español sin restricción. En el español, la ambigüedad sintáctica se ve magnificada por la cantidad de frases preposicionales que se emplean, lo que ocasiona una mayor cantidad de variantes generadas en el análisis sintáctico.
Diversos formalismos se han desarrollado para tener una cobertura total en el análisis sintáctico de lenguajes naturales, sin embargo la principal dificultad que se ha presentado es reconocer las estructuras reales de entre una enorme cantidad de variantes generadas en dichos análisis.
Se han propuesto métodos que utilizan un solo modelado del lenguaje, por ejemplo con gramáticas independientes del contexto (CFG), con gramáticas de estructura de frase generalizada, con gramáticas de adjunción de árboles (TAG), etc. También se ha propuesto la combinación de formalismos con estadísticas, por ejemplo CFG con probabilidades, TAG con probabilidades, entre otros.
El algoritmo de desambiguación sintáctica que aquí presentamos se basa en la transformación a una forma compatible de las variantes sintácticas generadas mediante diversos modelos del lenguaje, en la evaluación cuantitativa de ellas y finalmente en una votación que clasifique las variantes para determinar las de mayor posibilidad de ser las correctas. Este algoritmo emplea como base principal el diccionario y los pesos de los patrones de manejo.
En el capítulo uno presentamos los antecedentes para el desarrollo de la investigación sobre análisis sintáctico, los formalismos gramaticales que se han desarrollado dentro de la lingüística computacional y las herramientas requeridas. A partir del capítulo dos presentamos nuestras aportaciones. En el capítulo dos desarrollamos la aplicación del modelo de dependencias al español, en el capítulo tres presentamos nuestro algoritmo de análisis y desambiguación sintáctica, y en el capítulo cuatro el algoritmo de adquisición del diccionario de patrones de manejo sintáctico.
En el capítulo uno, en la primera sección, revisamos las gramáticas generativas y las estructurales en su evolución histórica. Por una parte, la evolución de las teorías derivadas de los constituyentes para superar los problemas generados por las transformaciones y cómo se paliaron estos problemas mediante las restricciones. Por otra parte las teorías derivadas de las dependencias y los formalismos desarrollados. Por último, la tendencia lexicista como la convergencia de ambas descripciones.
Después presentamos la descripción de las estructuras sintácticas de los objetos de las palabras según cada uno de los formalismos representativos para comparar la información que cada uno propone y el nivel en el que sitúa su descripción. En la tercera sección del capítulo uno presentamos los métodos estadísticos para detectar regularidades en las secuencias de palabras en las oraciones, y en la última sección la noción de redes semánticas como descripción de conocimiento semántico.
En el capítulo dos presentamos la descripción detallada de las valencias, las complejidades que se presentan, las peculiaridades semánticas y sintácticas del español que se describen en los patrones de manejo y ejemplos de estos patrones para verbos, sustantivos y adjetivos. Describimos la información que proponemos para los nuevos patrones de manejo y la descripción de su notación formal. Presentamos también las diferencias entre la descripción de valencias en los enfoques considerados.
Presentamos primero la descripción del modelo general de análisis y desambiguación sintáctica, y posteriormente el algoritmo de compilación del diccionario ya que en ambos empleamos el analizador básico construido, basado en gramáticas generativas. Este analizador básico, representa una de las fuentes de conocimiento para el modelo general y en este contexto se describe detalladamente. En cambio, en la implantación del algoritmo de compilación del diccionario lo empleamos como herramienta de construcción de variantes.
En el capítulo tres describimos el modelo general de análisis sintáctico y desambiguación, propuesto, es decir, el modelo completo y cada uno de sus subsistemas. Describimos la gramática generativa experimental que desarrollamos, su creación, características y verificación. Presentamos el algoritmo seleccionado para realizar el análisis sintáctico con la gramática generativa. Describimos el algoritmo desarrollado para la transformación a una forma compatible de dependencias. Describimos también el empleo de la red semántica para la desambiguación sintáctica. Presentamos finalmente la formulación de la evaluación cuantitativa de las variantes sintácticas, el algoritmo de votación y su expansión a un multimodelo.
El algoritmo de adquisición de los patrones de manejo se describe en el capítulo cuatro. Presentamos primero la deducción del modelo, enseguida presentamos la evolución de su desarrollo, en su aplicación a textos modelados y posteriormente a textos reales, las estadísticas en ambos y su comparación. A continuación presentamos ejemplos de los patrones compilados, las estadísticas obtenidas y la comparación entre métodos de compilación en forma tradicional y en forma automatizada. Por último presentamos las pruebas realizadas sobre un conjunto de prueba para dar una medida de la efectividad del empleo del diccionario compilado.
Finalmente presentamos las conclusiones, que incluyen el motivo y las aportaciones de esta tesis, adicionalmente presentamos rumbos posteriores a esta investigación.
En muchas disciplinas, la retrospectiva histórica y el estado actual permiten una visión más clara de cada disciplina, desde el punto de vista de los principales enfoques y ejemplos representativos de cada una. Entonces presentamos de esta manera los formalismos gramaticales en la Lingüística Computacional. Consideramos los dos enfoques que por mucho tiempo se han considerado opuestos y que en años recientes tienen más coincidencias: la gramática generativa cuyo principal representante es la teoría desarrollada por Chomsky en sus diversas variantes, y la tradición estructuralista europea que proviene de Tesniére, con el ejemplo más representativo, la teoría Sentido Û Texto de I. A. Mel’cuk. El sistema formal de esta última, en alcance y contenido es comparable con la escuela generativa.
Se tiende a creer que las palabras componen una oración como una progresión en una sola dimensión. Sin embargo, la propiedad del lenguaje natural que es de importancia central en la sintaxis es que tiene dos dimensiones. La primera es explícita, el orden lineal de palabras, y la segunda es implícita, la estructura jerárquica de palabras. El orden lineal es lo mismo que la secuencia de las palabras en la oración. El papel de la estructura jerárquica se refiere a menudo como una dependencia, podemos ejemplificarla con las siguientes frases:
una persona sola en la construcción
una persona interesada en la construcción
En la primera frase, el grupo de palabras en la construcción se une al grupo una persona indicando el lugar donde se encuentra la persona, mientras que en la segunda frase el mismo grupo se une a interesada indicando cuál es su interés. Lo que hace la diferencia en las interpretaciones, no es evidentemente un orden lineal puesto que el grupo en la construcción se encuentra en el final de ambas frases, y tampoco se trata de la distancia lineal en las dos frases.
Tanto el orden lineal como la estructura jerárquica, aunque principalmente esta última, son el tema principal en los formalismos para el análisis sintáctico. Los enfoques que presentamos consideran esa jerarquía como relaciones entre combinaciones de las palabras o entre palabras mismas.
Siguiendo el paradigma de Chomsky se han desarrollado muchos formalismos para la descripción y el análisis, sintácticos. El concepto básico de la gramática generativa es simplemente un sistema de reglas que define de una manera formal y precisa un conjunto de secuencias (cadenas a partir de un vocabulario de palabras) que representan las oraciones bien formadas de un lenguaje específico. Las gramáticas bien conocidas en otras ramas de la ciencia de la computación, las expresiones regulares y las gramáticas independientes del contexto, son gramáticas generativas también.
Chomsky y sus seguidores desarrollaron y formalizaron una teoría gramatical basada en la noción de generación [Chomsky, 65]. El trabajo que se realiza en la gramática generativa descansa en la suposición acerca de la estructura de la oración de que está organizada jerárquicamente en frases (y por consiguiente en estructura de frase). Un ejemplo de la segmentación y clasificación que se realiza en este enfoque se presenta en la Figura 1 A en el árbol de constituyentes para la frase los niños pequeños estudian pocas horas, donde O significa oración.
Un árbol de estructura de frase revela la estructura de una expresión en términos de agrupamientos (bloques) de palabras, que consisten de bloques más pequeños, los cuales consisten de bloques aún más pequeños, etc. En un árbol de estructura de frase, la mayoría de los nodos representan agrupamientos sintácticos o frases y no corresponden a las formas de las palabras reales de la oración bajo análisis. Símbolos como GN (grupo nominal), GV (grupo verbal), N (sustantivo), GP (grupo preposicional), etc. aparecen en los árboles de estructura de frase como etiquetas en los nodos, y se supone que estas únicas etiquetas completamente determinan las funciones sintácticas de los nodos correspondientes.
En el enfoque de estructura de frase, la categorización (la membresía de