Por favor, use este identificador para citar o enlazar este ítem: http://repositoriodigital.ipn.mx/handle/123456789/5686
Título : Compilación de un corpus paralelo español-inglés alineado a nivel de oraciones
Autor : Sidorov, Grigori
Jiménez Salazar, Héctor
Posadas Durán, Juan Pablo Francisco
Palabras clave : Natural language processing (Computer science)
Fecha de publicación : 2011
Editorial : Instituto Politécnico Nacional. Centro de Investigación en Computación
Resumen : Una de las líneas de investigación del Procesamiento de Lenguaje Natural se enfoca en automatizar la alineación de textos paralelos. La utilidad que presenta los textos paralelos alineados es que muestran de manera explícita la relación que existe entre los elementos de un texto en un idioma y los elementos del mismo texto traducido en otro idioma. En este trabajo de tesis, se plantea un método para la alineación de textos paralelos a nivel de oraciones escritos en los idiomas español e inglés, el cuál utiliza información léxica y estadística bajo un enfoque de programación dinámica. El método utiliza la información léxica contenida en un diccionario bilingüe español–inglés de propósito general restringido (incompleto), así como, el número de elementos significativos y la longitud de la oración medida en términos de caracteres. El método propuesto se probó en un corpus de textos literarios no balanceados (textos en los que la frecuencia de aparición de alineaciones múltiples, omisiones e inserciones es mayor), en el que reportó una efectividad superior al 90%. Se compararon los resultados obtenidos por el método propuesto contra los obtenidos por el sistema Vanilla aligner (utiliza un enfoque estadístico) utilizando el mismo corpus y se encontró que el método desarrollado fue superior, mostrando un buen desempeño en casos de alineaciones múltiples, omisiones e inserciones. Por los resultados obtenidos se observa que el uso de la información léxica contenida en un diccionario bilingüe de uso general e información estadística en el método propuesto, hacen de éste un método robusto para realizar la alineación a nivel de oraciones en textos que no presentan una traducción técnica con respecto a métodos exclusivamente estadísticos. // Parallel texts alignment is one line of research in Natural Language Processing. The utility of aligned parallel texts is that it shows explicitly the relationship between the elements in a text in one language and elements of the same text translated into another language. In this thesis, we propose a method for sentence alignment in parallel texts written in Spanish and English, it uses lexical and statistical information in a dynamic programming framework. The lexical information used is the one contained in a bilingual Spanish-English dictionary limited (incomplete) and for general purpose, as well as the sentence length measured in terms of words and in terms of characters. The proposed method was tested on a corpus of unbalanced literary texts (texts in which the frequency of multiple alignments, omissions and insertions is greater), where we reach a precision aobove the 90%. We compared our results obtained by the proposed method against those obtained by the Vanilla aligner system (which uses a statistical approach)with the same corpus and found that the developed method is superior, particularly in cases of multiple alignments, omissions and insertions. The results we obtained show that the use of lexical information contained in a bilingual dictionary of general use and statistical information, make this a robust method for sentence alignment in texts that don´t have a technical translation with respect to statistical methods alone.
Descripción : Maestría en Ciencias de la Computación
URI : http://www.repositoriodigital.ipn.mx/handle/123456789/5686
Aparece en las colecciones: Maestría

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Tesis12362.pdf1.75 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.