Por favor, use este identificador para citar o enlazar este ítem: http://repositoriodigital.ipn.mx/handle/123456789/7102
Título : Automatic language-independent detection of multiword descriptions for text summarization
Autor : Gelbukh, Alexander
Nokolaevna Ledeneva, Yulia
Palabras clave : Automatic abstracting
Computational lingüistics
Natural Language processing (Computer science)
Text procesing (Computer science)
Fecha de publicación : 2008
Editorial : Instituto Politécnico Nacional. Centro de Investigación en Computación
Resumen : In the last two decades, an exponential increase in the available electronic information causes a big necessity to quickly understand large volumes of information. It raises the importance of the development of automatic methods for detecting the most relevant content of a document in order to produce a shorter text. Automatic text summarization (ATS) is an active research area dedicated to generate abstractive and extractive summaries not only for a single document, but also for a collection of documents. Other problems consist in resolve ATS in a language- and domain-independent way. In this thesis, we consider extractive text summarization for single and multi-document tasks. As the first contribution of this thesis, we have identified that a typical extractive summarization method consists in four steps. First step is a term selection where one should decide what units will count as individual terms. The process of estimating the usefulness of the individual terms is called term weighting step. The next step denotes as sentence weighting where all the sentences receive some numerical measure according to the usefulness of its terms. Finally, the process of selecting the most relevant sentences calls sentence selection. Different extractive summarization methods can be characterized how they perform these steps. As the main contribution, in the term selection step, we propose to detect multiword descriptions considering Maximal Frequent Sequences (MFSs), which bearing important meaning, while non-maximal frequent sequences (FSs), those that are parts of another FS, should not be considered. Our additional motivation was cost vs. benefit considerations: there are too many non-maximal FSs while their probability to bear important meaning is lower. In any case, MFSs represent all FSs in a compact way: all FSs can be obtained from all MFSs by bursting each MFS into a set of all its subsequences. Other contributions are new methods based on graph algorithms, clustering algorithms, and genetic algorithms which facilitate the text summarization task. We have tested different combinations of term selection, term weighting, sentence weighting and sentence selection options for language-and domain-independent extractive single-document text summarization on a news report collection. We analyzed several options based on multiword descriptions, considering them with graph, clustering, and genetic algorithms. We obtained results superior to the existing state-of-the-art methods. // En las últimas dos décadas un aumento exponencial de la información electrónica provoca una gran necesidad de entender rápidamente grandes volúmenes de información. En esta tesis se desarrollan los métodos automáticos para producir un resumen. Un resumen del texto es un texto corto que transmite la información más importante del documento o de una colección de documentos. El tipo de resúmenes con el cual trabajamos en esta tesis son resúmenes extractivos: una selección de las oraciones del texto más importantes. Otros retos consisten en generar resúmenes de manera independiente de lenguaje y dominio. La primera contribución de esta tesis consiste en identificar cuatro etapas para generación de resúmenes extractivos. La primera etapa es la selección de términos donde uno tiene que decidir que unidades contarían como los términos individuales. El proceso de estimación de la utilidad de los términos individuales se llama la etapa de pesado de términos. El siguiente paso se denota como pesado de oraciones donde todas las secuencias reciben alguna medida numérica de acuerdo a la utilidad de términos. Finalmente, el proceso de selección de las oraciones más importantes se llama selección de oraciones. Los diferentes métodos para generación de resúmenes extractivos se pueden ser caracterizados como representan estas etapas. Las contribuciones principales en la etapa de selección de términos que hemos propuesto es la detección de descripciones multipalabra considerando Secuencias Frecuentes Maximales (SFMs), cuales adquieren un significado importante mientras Secuencias Frecuentes (SF) no maximales los cuales son partes de otros SF, no deben de ser consideradas. En la motivación se consideró costo vs. beneficio: existe muchas SF no maximales mientras la probabilidad de adquirir un significado importante es baja. De todos modos, SFMs representan todas SFs en el modo compacto: todas SFs podrían ser obtenidas a partir de todas SFMs explotando cada SFM al conjunto de todas sus subsecuencias. Otras contribuciones de este trabajo son nuevos métodos basados en grafos, algoritmos de agrupamiento, y algoritmo genético cuales facilitan la tarea de generación de resúmenes de textos. Se ha experimentado diferentes combinaciones de las opciones de selección de términos, pesado de términos, pesado de oraciones y selección de oraciones para generar los resúmenes extractivos de textos independiente de lenguaje y dominio para una colección de noticias. Se ha analizado algunas opciones basadas en descripciones multipalabra considerándolas en los métodos de grafos, algoritmos de agrupamiento y algoritmos genéticos. Se ha obtenido los resultados superiores al de estado de arte.
Descripción : Doctorado en Ciencias de la Computación
URI : http://www.repositoriodigital.ipn.mx/handle/123456789/7102
Aparece en las colecciones: Doctorado

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Tesis 11687.pdf1.38 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.