Por favor, use este identificador para citar o enlazar este ítem: http://repositoriodigital.ipn.mx/handle/123456789/6862
Título : Generador de los grafos conceptuales a partir del texto en español
Autor : Gelbukh, Alexander
Hernández Cruz, Macario
Palabras clave : Computational lingüistics
Fecha de publicación : 2007
Editorial : Instituto Politécnico Nacional. Centro de Investigación en Computación
Resumen : Se presenta un sistema que convierte un texto libre en español en una representaciónsemántica formal, a saber, un conjunto de los llamados grafos conceptuales. Un grafo conceptual representa, básicamente, una red de predicados y sus argumentos, que describe ciertos hechos sobre el universo del discurso; en este caso los hechos comunicados en el texto analizado. La estructura semántica formal así obtenida tiene numerosas aplicaciones en las tareas computacionales relacionados con el texto: la recuperación de infor mación, la respuesta a preguntas, la minería de texto, el agrupamiento de documentos, la traducción automática, entre otras (estas aplicaciones están fuera del alcance de la presente tesis; algunas de éstas fueron objeto de otras tesis de Maestría y Doctorado realizadas por los integrantes del mismo grupo). A pesar de la gran utilidad de un método para la obtención automática de los grafos conceptuales de texto en español, según nuestro conocimiento antes del presente trabajo eso no fue posible; las aplicaciones conocidas de los grafos conceptuales trabajaban sólo sobre las bases de grafos construidos manualmente, lo cual fue un proceso muy costoso y poco confiable. La conversión que realiza el presente sistema sigue la metodología clásica de procesamiento de texto: el texto libre pasa por un analizador morfológico y luego por un analizador sintáctico, ambos desarrollados previamente por los integrantes del mismo grupo. La salida del analizador sintáctico es un conjunto de árboles sintácticos. El sistema efectúe las siguientes operaciones sobre esta salida: 1) identificación de los tipos semánticos de los nodos (palabras o frases) y sobre todo sus relaciones; éstos se convierten en los elementos correspondientes de la estructura resultante; 2) operaciones necesarias sobre los grafos obtenidos, que garanticen que éstos cumplan con las restricciones del formalismo de los grafos conceptuales; 3) generación de la estructura resultante en el formato especificado por los estándares internacionales correspondientes para el formalismo de los grafos conceptuales. Como un ejemplo de la aplicación del sistema, los grafos generados por el sistema se usaron como entrada a un sistema de minería de texto existente. Este sistema, desarrollado en el marco de una tesis doctoral, no se ha operado sobre los textos reales ya que requería de la construcción manual de sus grafos de entrada; con el presente trabajo se hace posible su explotación masiva sobre textos abiertos no preparados sin intervención manual. Como trabajo futuro, el sistema abre al camino al desarrollo de otros sistemas aplicados mencionados arriba que funcionarán en base de la representación semántica de texto y no sólo de su representación estadística como los sistemas existentes. // A system is presented capable of converting open plain text in Spanish into a formal semantic representation, namely, a set of so-called conceptual graphs. A conceptual graph represents, basically, a network of predicates and their arguments that describes certain facts about the universe of the discourse; in our case, the facts communicated in the text being analyzed. The obtained semantic structure has numerous applications in text-related computational tasks such as information retrieval, question answering, text mining, document clustering, and machine translation, to mention a few (these applications are beyond the scope of the present dissertation; some of them have been the object of other MSc or PhD dissertations by the members of the same team). In spite of grate usefulness of a method for automatically obtaining conceptual graphs from a plain text in Spanish, to the best of our knowledge there this was not possible previously; existing applications that rely on conceptual graphs are only used over databases of manually constructed conceptual graphs, which implies a highly expensive and error-prone process. The conversion process implemented in our system follows the classic methodology of text processing: the plain text is processed with a morphological analyzer and then a parser, both previously developed by members of the same team. The output of the parser is a set of syntactic trees. The system performs the following operations on this output: (1) identification of semantic types of the nodes (words or phrases) and most importantly their relations; these are converted into the corresponding elements of the resulting structure; (2) transformations of the obtained graphs that guarantee their compliance with the constraints of the formalism of the conceptual graphs; (3) generation of the resulting structure in the format specified by the corresponding international standards on conceptual graph formalism. As an example of application of the system, the conceptual graphs generated by the system were used as the input to an existing text mining system. This system, developed in frame of a PhD thesis, was not previously applied to real texts since it required manual construction of the graphs used as input; the present work makes it possible to apply the system to raw open texts with no manual intervention. As a future work, the system opens the way to development of other applied systems mentioned above, which will rely on semantic representation of text and not just statistical representation as existing systems do.
Descripción : Maestría en Ciencias de la Computación
URI : http://www.repositoriodigital.ipn.mx/handle/123456789/6862
Aparece en las colecciones: Maestría

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Tesis 11252.pdfMaestría en Ciencias de la Computación2.02 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.