Por favor, use este identificador para citar o enlazar este ítem: http://repositoriodigital.ipn.mx/handle/123456789/9239
Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorDr. Grigori Sidorov-
dc.contributor.advisorDr. Jim enez Salazar, H ector-
dc.contributor.authorPosadas Dur an, Juan Pablo Francisco-
dc.date.accessioned2013-01-10T16:35:05Z-
dc.date.available2013-01-10T16:35:05Z-
dc.date.issued2011-06-09-
dc.identifier.urihttp://www.repositoriodigital.ipn.mx/handle/123456789/9239-
dc.descriptionUna de las l neas de investigaci on del Procesamiento de Lenguaje Natural se enfoca en automatizar la alineaci on de textos paralelos. La utilidad que presenta los textos paralelos alineados es que muestran de manera explicita la relaci on que existe entre los elementos de un texto en un idioma y los elementos del mismo texto traducido en otro idioma. En este trabajo de tesis, se plantea un m etodo para la alineaci on de textos paralelos a nivel de oraciones escritos en los idiomas espa~nol e ingl es, el cu al utiliza informaci on l exica y estad stica bajo un enfoque de programaci on din amica. El m etodo utiliza la informaci on l exica contenida en un diccionario biling ue espa~nol{ingl es de prop osito general restringido (incompleto), as como, la longitud de la oraci on medida en t erminos de palabras y en t erminos de caracteres. El m etodo propuesto se prob o en un corpus de textos literarios no balanceados (textos en los que la frecuencia de aparici on de alineaciones m ultiples, omisiones e inserciones es mayor), en el que report o una efectividad superior al 90 %. Se compararon los resultados obtenidos por el m etodo propuesto contra los obtenidos por el sistema Vanilla aligner (utiliza un enfoque estad stico) utilizando el mismo corpus y se encontr o que el m etodo desarrollado es superior, particularmente en los casos de alineaciones multiples, omisiones e inserciones. Por los resultados obtenidos se observa que el uso de la informaci on l exica contenida en un diccionario biling ue de uso general e informaci on estad stica en el m etodo propuesto, hacen de este un m etodo robusto para realizar la alineaci on a nivel de oraciones en textos que no presentan una traducci on t ecnica con respecto a m etodos solamente estad sticos.es
dc.description.abstractOne line of research of Natural Language Processing focuses on parallel texts alignment. The utility of aligned parallel texts is that it shows explicitly the relationship between the elements in a text in one language and elements of the same text translated into another language. In this thesis, we propose a method for sentence alignment in parallel texts written in Spanish and English, it uses lexical and statistical information in a dynamic programming framework. The lexical information used is the one contained in a bilingual Spanish-English dictionary limited (incomplete) and for general purpose, as well as the sentence length measured in terms of words and in terms of characters. The proposed method was tested on a corpus of unbalanced literary texts (texts in which the frequency of multiple alignments, omissions and insertions is greater), where we reach a precision aobove the 90 %. We compared our results obtained by the proposed method against those obtained by the Vanilla aligner system (which uses a statistical approach)with the same corpus and found that the developed method is superior, particularly in cases of multiple alignments, omissions and insertions. The results we obtained show that the use of lexical information contained in a bilingual dictionary of general use and statistical information, make this a robust method for sentence alignment in texts that don t have a technical translation with respect to statistical methods alone.es
dc.language.isoeses
dc.subjectcorpus paraleloes
dc.subjectespañol-ingleses
dc.titleCompilaci on de un corpus paralelo espa~nol{ingl es alineado a nivel de oracioneses
dc.typeThesises
dc.description.especialidadMAESTRÍA EN COMPUTACIÓNes
dc.description.tipoPDFes
Aparece en las colecciones: Mediateca

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Tesis Posadas Duran Juan.pdfCompilacion de un corpus paralelo español-ingles alineado a nivel de oraciones2.86 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.